Python 은 다 중 프로 세 스 를 구현 하여 CSV 데 이 터 를 MySQL 로 가 져 옵 니 다.
5689 단어 Python다 중 프로 세 스MySQL 가 져 오기
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import codecs
import csv
import logging
import multiprocessing
import os
import warnings
import click
import MySQLdb
import sqlalchemy
warnings.filterwarnings('ignore', category=MySQLdb.Warning)
#
BATCH = 5000
DB_URI = 'mysql://root@localhost:3306/example?charset=utf8'
engine = sqlalchemy.create_engine(DB_URI)
def get_table_cols(table):
sql = 'SELECT * FROM `{table}` LIMIT 0'.format(table=table)
res = engine.execute(sql)
return res.keys()
def insert_many(table, cols, rows, cursor):
sql = 'INSERT INTO `{table}` ({cols}) VALUES ({marks})'.format(
table=table,
cols=', '.join(cols),
marks=', '.join(['%s'] * len(cols)))
cursor.execute(sql, *rows)
logging.info('process %s inserted %s rows into table %s', os.getpid(), len(rows), table)
def insert_worker(table, cols, queue):
rows = []
# engine
cursor = sqlalchemy.create_engine(DB_URI)
while True:
row = queue.get()
if row is None:
if rows:
insert_many(table, cols, rows, cursor)
break
rows.append(row)
if len(rows) == BATCH:
insert_many(table, cols, rows, cursor)
rows = []
def insert_parallel(table, reader, w=10):
cols = get_table_cols(table)
# , ,worker
# , ,
queue = multiprocessing.Queue(maxsize=w*BATCH*2)
workers = []
for i in range(w):
p = multiprocessing.Process(target=insert_worker, args=(table, cols, queue))
p.start()
workers.append(p)
logging.info('starting # %s worker process, pid: %s...', i + 1, p.pid)
dirty_data_file = './{}_dirty_rows.csv'.format(table)
xf = open(dirty_data_file, 'w')
writer = csv.writer(xf, delimiter=reader.dialect.delimiter)
for line in reader:
# :
if len(line) != len(cols):
writer.writerow(line)
continue
# None 'NULL'
clean_line = [None if x == 'NULL' else x for x in line]
#
queue.put(tuple(clean_line))
if reader.line_num % 500000 == 0:
logging.info('put %s tasks into queue.', reader.line_num)
xf.close()
# worker
logging.info('send close signal to worker processes')
for i in range(w):
queue.put(None)
for p in workers:
p.join()
def convert_file_to_utf8(f, rv_file=None):
if not rv_file:
name, ext = os.path.splitext(f)
if isinstance(name, unicode):
name = name.encode('utf8')
rv_file = '{}_utf8{}'.format(name, ext)
logging.info('start to process file %s', f)
with open(f) as infd:
with open(rv_file, 'w') as outfd:
lines = []
loop = 0
chunck = 200000
first_line = infd.readline().strip(codecs.BOM_UTF8).strip() + '
'
lines.append(first_line)
for line in infd:
clean_line = line.decode('gb18030').encode('utf8')
clean_line = clean_line.rstrip() + '
'
lines.append(clean_line)
if len(lines) == chunck:
outfd.writelines(lines)
lines = []
loop += 1
logging.info('processed %s lines.', loop * chunck)
outfd.writelines(lines)
logging.info('processed %s lines.', loop * chunck + len(lines))
@click.group()
def cli():
logging.basicConfig(level=logging.INFO,
format='%(asctime)s - %(levelname)s - %(name)s - %(message)s')
@cli.command('gbk_to_utf8')
@click.argument('f')
def convert_gbk_to_utf8(f):
convert_file_to_utf8(f)
@cli.command('load')
@click.option('-t', '--table', required=True, help=' ')
@click.option('-i', '--filename', required=True, help=' ')
@click.option('-w', '--workers', default=10, help='worker , 10')
def load_fac_day_pro_nos_sal_table(table, filename, workers):
with open(filename) as fd:
fd.readline() # skip header
reader = csv.reader(fd)
insert_parallel(table, reader, w=workers)
if __name__ == '__main__':
cli()
이상 은 본문 이 여러분 에 게 공유 하 는 모든 사람 이 없습니다.여러분 들 이 좋아 하 시 기 를 바 랍 니 다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
Python의 None과 NULL의 차이점 상세 정보그래서 대상 = 속성 + 방법 (사실 방법도 하나의 속성, 데이터 속성과 구별되는 호출 가능한 속성 같은 속성과 방법을 가진 대상을 클래스, 즉 Classl로 분류할 수 있다.클래스는 하나의 청사진과 같아서 하나의 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.