Python实现 多进程导入CSV数据到 MySQL

发布时间 - 2026-01-10 23:17:12    点击率:

前段时间帮同事处理了一个把 CSV 数据导入到 MySQL 的需求。两个很大的 CSV 文件, 分别有 3GB、2100 万条记录和 7GB、3500 万条记录。对于这个量级的数据,用简单的单进程/单线程导入 会耗时很久,最终用了多进程的方式来实现。具体过程不赘述,记录一下几个要点:

  1. 批量插入而不是逐条插入
  2. 为了加快插入速度,先不要建索引
  3. 生产者和消费者模型,主进程读文件,多个 worker 进程执行插入
  4. 注意控制 worker 的数量,避免对 MySQL 造成太大的压力
  5. 注意处理脏数据导致的异常
  6. 原始数据是 GBK 编码,所以还要注意转换成 UTF-8
  7. 用 click 封装命令行工具

具体的代码实现如下:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import codecs
import csv
import logging
import multiprocessing
import os
import warnings

import click
import MySQLdb
import sqlalchemy

warnings.filterwarnings('ignore', category=MySQLdb.Warning)

# 批量插入的记录数量
BATCH = 5000

DB_URI = 'mysql://root@localhost:3306/example?charset=utf8'

engine = sqlalchemy.create_engine(DB_URI)


def get_table_cols(table):
  sql = 'SELECT * FROM `{table}` LIMIT 0'.format(table=table)
  res = engine.execute(sql)
  return res.keys()


def insert_many(table, cols, rows, cursor):
  sql = 'INSERT INTO `{table}` ({cols}) VALUES ({marks})'.format(
      table=table,
      cols=', '.join(cols),
      marks=', '.join(['%s'] * len(cols)))
  cursor.execute(sql, *rows)
  logging.info('process %s inserted %s rows into table %s', os.getpid(), len(rows), table)


def insert_worker(table, cols, queue):
  rows = []
  # 每个子进程创建自己的 engine 对象
  cursor = sqlalchemy.create_engine(DB_URI)
  while True:
    row = queue.get()
    if row is None:
      if rows:
        insert_many(table, cols, rows, cursor)
      break

    rows.append(row)
    if len(rows) == BATCH:
      insert_many(table, cols, rows, cursor)
      rows = []


def insert_parallel(table, reader, w=10):
  cols = get_table_cols(table)

  # 数据队列,主进程读文件并往里写数据,worker 进程从队列读数据
  # 注意一下控制队列的大小,避免消费太慢导致堆积太多数据,占用过多内存
  queue = multiprocessing.Queue(maxsize=w*BATCH*2)
  workers = []
  for i in range(w):
    p = multiprocessing.Process(target=insert_worker, args=(table, cols, queue))
    p.start()
    workers.append(p)
    logging.info('starting # %s worker process, pid: %s...', i + 1, p.pid)

  dirty_data_file = './{}_dirty_rows.csv'.format(table)
  xf = open(dirty_data_file, 'w')
  writer = csv.writer(xf, delimiter=reader.dialect.delimiter)

  for line in reader:
    # 记录并跳过脏数据: 键值数量不一致
    if len(line) != len(cols):
      writer.writerow(line)
      continue

    # 把 None 值替换为 'NULL'
    clean_line = [None if x == 'NULL' else x for x in line]

    # 往队列里写数据
    queue.put(tuple(clean_line))
    if reader.line_num % 500000 == 0:
      logging.info('put %s tasks into queue.', reader.line_num)

  xf.close()

  # 给每个 worker 发送任务结束的信号
  logging.info('send close signal to worker processes')
  for i in range(w):
    queue.put(None)

  for p in workers:
    p.join()


def convert_file_to_utf8(f, rv_file=None):
  if not rv_file:
    name, ext = os.path.splitext(f)
    if isinstance(name, unicode):
      name = name.encode('utf8')
    rv_file = '{}_utf8{}'.format(name, ext)
  logging.info('start to process file %s', f)
  with open(f) as infd:
    with open(rv_file, 'w') as outfd:
      lines = []
      loop = 0
      chunck = 200000
      first_line = infd.readline().strip(codecs.BOM_UTF8).strip() + '\n'
      lines.append(first_line)
      for line in infd:
        clean_line = line.decode('gb18030').encode('utf8')
        clean_line = clean_line.rstrip() + '\n'
        lines.append(clean_line)
        if len(lines) == chunck:
          outfd.writelines(lines)
          lines = []
          loop += 1
          logging.info('processed %s lines.', loop * chunck)

      outfd.writelines(lines)
      logging.info('processed %s lines.', loop * chunck + len(lines))


@click.group()
def cli():
  logging.basicConfig(level=logging.INFO,
            format='%(asctime)s - %(levelname)s - %(name)s - %(message)s')


@cli.command('gbk_to_utf8')
@click.argument('f')
def convert_gbk_to_utf8(f):
  convert_file_to_utf8(f)


@cli.command('load')
@click.option('-t', '--table', required=True, help='表名')
@click.option('-i', '--filename', required=True, help='输入文件')
@click.option('-w', '--workers', default=10, help='worker 数量,默认 10')
def load_fac_day_pro_nos_sal_table(table, filename, workers):
  with open(filename) as fd:
    fd.readline()  # skip header
    reader = csv.reader(fd)
    insert_parallel(table, reader, w=workers)


if __name__ == '__main__':
  cli()

以上就是本文给大家分享的全部没人了,希望大家能够喜欢


# python  # csv  # 导入mysql  # mysql  # 多进程  # 使用python将excel数据导入数据库过程详解  # 用Python将Excel数据导入到SQL Server的例子  # Python 中导入csv数据的三种方法  # Python之csv文件从MySQL数据库导入导出的方法  # python批量导入数据进Elasticsearch的实例  # python Django批量导入数据  # python Django批量导入不重复数据  # Python制作数据导入导出工具  # Python导入oracle数据的方法  # python 导入数据及作图的实现  # 自己的  # 几个  # 太多  # 多个  # 很久  # 用了  # 太大  # 给大家  # 希望大家  # 人了  # 转换成  # 来实现  # 别有  # 前段时间  # 太慢  # 命令行  # 跳过  # 往里  # 键值  # 单线程 


相关栏目: 【 网站优化151355 】 【 网络推广146373 】 【 网络技术251813 】 【 AI营销90571


相关推荐: Laravel如何实现用户角色和权限系统_Laravel角色权限管理机制  如何用狗爹虚拟主机快速搭建网站?  网站制作免费,什么网站能看正片电影?  Laravel如何发送邮件_Laravel Mailables构建与发送邮件的简明教程  网站制作大概要多少钱一个,做一个平台网站大概多少钱?  Laravel如何实现多表关联模型定义_Laravel多对多关系及中间表数据存取【方法】  高配服务器限时抢购:企业级配置与回收服务一站式优惠方案  Laravel如何创建自定义Facades?(详细步骤)  浅析上传头像示例及其注意事项  Laravel如何编写单元测试和功能测试?(PHPUnit示例)  如何彻底删除建站之星生成的Banner?  移动端手机网站制作软件,掌上时代,移动端网站的谷歌SEO该如何做?  laravel怎么配置和使用PHP-FPM来优化性能_laravel PHP-FPM配置与性能优化方法  UC浏览器如何设置启动页 UC浏览器启动页设置方法  如何在 Go 中优雅地映射具有动态字段的 JSON 对象到结构体  如何快速完成中国万网建站详细流程?  Laravel如何实现API版本控制_Laravel版本化API设计方案  Laravel distinct去重查询_Laravel Eloquent去重方法  Laravel观察者模式如何使用_Laravel Model Observer配置  Laravel如何监控和管理失败的队列任务_Laravel失败任务处理与监控  软银砸40亿美元收购DigitalBridge 强化AI资料中心布局  手机网站制作平台,手机靓号代理商怎么制作属于自己的手机靓号网站?  怎么用AI帮你为初创公司进行市场定位分析?  网站视频制作书签怎么做,ie浏览器怎么将网站固定在书签工具栏?  Angular 表单中正确绑定输入值以确保提交与验证正常工作  如何用腾讯建站主机快速创建免费网站?  家族网站制作贴纸教程视频,用豆子做粘帖画怎么制作?  Laravel怎么返回JSON格式数据_Laravel API资源Response响应格式化【技巧】  Java Adapter 适配器模式(类适配器,对象适配器)优缺点对比  Gemini怎么用新功能实时问答_Gemini实时问答使用【步骤】  如何安全更换建站之星模板并保留数据?  Zeus浏览器网页版官网入口 宙斯浏览器官网在线通道  如何在万网ECS上快速搭建专属网站?  ,在苏州找工作,上哪个网站比较好?  如何自己制作一个网站链接,如何制作一个企业网站,建设网站的基本步骤有哪些?  合肥制作网站的公司有哪些,合肥聚美网络科技有限公司介绍?  Laravel如何实现API资源集合?(Resource Collection教程)  Laravel Vite是做什么的_Laravel前端资源打包工具Vite配置与使用  如何挑选高效建站主机与优质域名?  如何自定义safari浏览器工具栏?个性化设置safari浏览器界面教程【技巧】  🚀拖拽式CMS建站能否实现高效与个性化并存?  laravel怎么实现图片的压缩和裁剪_laravel图片压缩与裁剪方法  Laravel如何创建自定义中间件?(Middleware代码示例)  怎样使用JSON进行数据交换_它有什么限制  Laravel如何使用Eloquent进行子查询  如何在宝塔面板创建新站点?  Java遍历集合的三种方式  悟空识字如何进行跟读录音_悟空识字开启麦克风权限与录音  Java垃圾回收器的方法和原理总结  Laravel全局作用域是什么_Laravel Eloquent Global Scopes应用指南