将文本文件按每三行合并为一行并保存为CSV格式

发布时间 - 2026-01-28 00:00:00    点击率:

本文介绍如何将ocr识别生成的、按行排列的地址信息(如姓名、地址、城市州邮编)自动整理为结构化的csv文件,支持直接从ocr文本处理,无需中间文本文件,避免手动编辑。

在OCR后处理流程中,常见场景是:每组地址信息被识别为连续的三行(例如:姓名、街道地址、城市/州/邮编),但原始输出是扁平化的纯文本行序列。若每次识别后都先写入.txt再二次转换,不仅冗余,还易引入编码、换行或逗号干扰等问题。理想方案是在tess_address()函数中直接完成分组与CSV写入,跳过中间文本文件。

以下是一个完整、健壮且可直接集成的解决方案:

✅ 核心逻辑说明

  1. 清理与分割:对pytesseract.image_to_string()返回的text,用splitlines()切分为行,并移除每行末尾及内部多余的逗号(避免干扰CSV结构);
  2. 分组校验:确保总行数能被3整除(即每组含“姓名、地址、城市州邮编”),否则抛出明确错误便于调试;
  3. 批量重组:使用步长为3的切片(lines[i:i+3])将线性列表转为二维结构——每子列表代表一个CSV记录;
  4. 安全写入CSV:通过标准csv.writer写入,自动处理字段内逗号、引号和换行等边缘情况(比手动print(..., file=...)更可靠)。

✅ 集成后的 tess_address() 函数(推荐替换原函数)

import os
import csv
import re
import pytesseract

def tess_address():
    input_dir = "address"
    output_csv = "address_output.csv"

    files = sorted(os.listdir(input_dir))

    # 初始化所有OCR行的容器(全局收集,避免逐图覆盖)
    all_lines = []

    for image in files:
        image_path = os.path.join(input_dir, image)
        text = pytesseract.image_to_string(image_path)

        # 清理:移除所有逗号(防止干扰CSV解析),并分割为行
        clean_lines = [re.sub(r",", "", line.strip()) for line in text.splitlines() if line.strip()]
        all_lines.extend(clean_lines)

    # 校验:必须是3的倍数(每组3个字段)
    if len(all_lines) % 3 != 0:
        raise ValueError(f"OCR共提取 {len(all_lines)} 行,不是3的倍数,请检查识别结果是否完整或存在空行")

    # 按每3行分组
    rows = [all_lines[i:i+3] for i in range(0, len(all_lines), 3)]

    # 写入CSV(注意:newline='' 是csv模块必需参数,避免Windows下空行)
    with open(output_csv, "w", newline="", encoding="utf-8") as f:
        writer = csv.writer(f)
        writer.writerows(rows)

    print(f"✅ 已成功生成 {len(rows)} 条记录,保存至 {output_csv}")

⚠️ 关键注意事项

  • 不要重复打开文件写入:原代码中 print(..., file=open("address.txt", 'a')) 在循环内反复调用 open(),既低效又易因编码/缓冲问题导致乱码;新方案统一收集后批量写入,更稳定。
  • 编码与换行:csv.writer 必须指定 newline="",否则在Windows系统中可能产生双换行(\r\n\r\n)。
  • 空行过滤:if line.strip() 确保忽略OCR识别出的空白行或仅含空格的行,提升鲁棒性。
  • 错误定位友好:assert 或 raise ValueError 明确提示行数异常,便于快速排查OCR漏识别或图像质量问题。

✅ 输出效果示例

输入OCR文本(经清理后):

John Doe
123 Main St
New York NY 10001
Jane Smith
456 Oak Ave
Los Angeles CA 90210

生成的 address_

output.csv 内容(可用Excel或pandas.read_csv()直接读取):

John Doe,123 Main St,"New York NY 10001"
Jane Smith,456 Oak Ave,"Los Angeles CA 90210"
注:csv.writer 自动为含空格的字段加引号,确保语义无歧义。

通过此方案,你彻底摆脱了“先生成txt → 手动编辑 → 再转csv”的繁琐链路,实现OCR到结构化数据的一站式、可复现、易维护的自动化处理。


# excel  # windows  # 编码  # csv  # ai  # win  # windows系统  # csv文件  # 排列  # pandas  # print  # if  # 循环  # raise  # 切片  # ocr  # 自动化  # 换行  # 每组  # 文本文件  # 移除  # 结构化  # 行数  # 是一个  # 切分  # 可直接  # 则在 


相关栏目: 【 网站优化151355 】 【 网络推广146373 】 【 网络技术251813 】 【 AI营销90571


相关推荐: 黑客入侵网站服务器的常见手法有哪些?  Laravel Docker环境搭建教程_Laravel Sail使用指南  Laravel的.env文件有什么用_Laravel环境变量配置与管理详解  清除minerd进程的简单方法  标题:Vue + Vuex 项目中正确使用 JWT 进行身份认证的实践指南  Laravel如何实现邮箱地址验证功能_Laravel邮件验证流程与配置  如何在IIS服务器上快速部署高效网站?  IOS倒计时设置UIButton标题title的抖动问题  个人网站制作流程图片大全,个人网站如何注销?  轻松掌握MySQL函数中的last_insert_id()  Laravel如何使用软删除(Soft Deletes)功能_Eloquent软删除与数据恢复方法  Laravel中间件如何使用_Laravel自定义中间件实现权限控制  Laravel如何实现用户角色和权限系统_Laravel角色权限管理机制  桂林网站制作公司有哪些,桂林马拉松怎么报名?  ChatGPT 4.0官网入口地址 ChatGPT在线体验官网  java ZXing生成二维码及条码实例分享  网易LOFTER官网链接 老福特网页版登录地址  Laravel队列任务超时怎么办_Laravel Queue Timeout设置详解  如何在Tomcat中配置并部署网站项目?  Laravel怎么上传文件_Laravel图片上传及存储配置  如何使用 Go 正则表达式精准提取括号内首个纯字母标识符(忽略数字与嵌套)  Laravel如何连接多个数据库_Laravel多数据库连接配置与切换教程  高防服务器租用指南:配置选择与快速部署攻略  Laravel如何实现RSS订阅源功能_Laravel动态生成网站XML格式订阅内容【教程】  千问怎样用提示词获取健康建议_千问健康类提示词注意事项【指南】  Swift中循环语句中的转移语句 break 和 continue  Laravel怎么防止CSRF攻击_Laravel CSRF保护中间件原理与实践  如何自定义safari浏览器工具栏?个性化设置safari浏览器界面教程【技巧】  android nfc常用标签读取总结  如何在橙子建站上传落地页?操作指南详解  Laravel如何实现一对一模型关联?(Eloquent示例)  HTML5空格和nbsp有啥关系_nbsp的作用及使用场景【说明】  如何快速重置建站主机并恢复默认配置?  如何快速搭建高效WAP手机网站?  免费的流程图制作网站有哪些,2025年教师初级职称申报网上流程?  Laravel Sail是什么_基于Docker的Laravel本地开发环境Sail入门  香港代理服务器配置指南:高匿IP选择、跨境加速与SEO优化技巧  html如何与html链接_实现多个HTML页面互相链接【互相】  如何在IIS管理器中快速创建并配置网站?  活动邀请函制作网站有哪些,活动邀请函文案?  英语简历制作免费网站推荐,如何将简历翻译成英文?  Laravel如何处理文件下载请求?(Response示例)  如何在VPS电脑上快速搭建网站?  微博html5版本怎么弄发超话_超话进入入口及发帖格式要求【教程】  个人摄影网站制作流程,摄影爱好者都去什么网站?  详解MySQL数据库的安装与密码配置  如何安全更换建站之星模板并保留数据?  Laravel怎么返回JSON格式数据_Laravel API资源Response响应格式化【技巧】  如何实现建站之星域名转发设置?  在Oracle关闭情况下如何修改spfile的参数