将文本文件按每三行合并为一行并保存为CSV格式
发布时间 - 2026-01-28 00:00:00 点击率:次本文介绍如何将ocr识别生成的、按行排列的地址信息(如姓名、地址、城市州邮编)自动整理为结构化的csv文件,支持直接从ocr文本处理,无需中间文本文件,避免手动编辑。
在OCR后处理流程中,常见场景是:每组地址信息被识别为连续的三行(例如:姓名、街道地址、城市/州/邮编),但原始输出是扁平化的纯文本行序列。若每次识别后都先写入.txt再二次转换,不仅冗余,还易引入编码、换行或逗号干扰等问题。理想方案是在tess_address()函数中直接完成分组与CSV写入,跳过中间文本文件。
以下是一个完整、健壮且可直接集成的解决方案:
✅ 核心逻辑说明
- 清理与分割:对pytesseract.image_to_string()返回的text,用splitlines()切分为行,并移除每行末尾及内部多余的逗号(避免干扰CSV结构);
- 分组校验:确保总行数能被3整除(即每组含“姓名、地址、城市州邮编”),否则抛出明确错误便于调试;
- 批量重组:使用步长为3的切片(lines[i:i+3])将线性列表转为二维结构——每子列表代表一个CSV记录;
- 安全写入CSV:通过标准csv.writer写入,自动处理字段内逗号、引号和换行等边缘情况(比手动print(..., file=...)更可靠)。
✅ 集成后的 tess_address() 函数(推荐替换原函数)
import os
import csv
import re
import pytesseract
def tess_address():
input_dir = "address"
output_csv = "address_output.csv"
files = sorted(os.listdir(input_dir))
# 初始化所有OCR行的容器(全局收集,避免逐图覆盖)
all_lines = []
for image in files:
image_path = os.path.join(input_dir, image)
text = pytesseract.image_to_string(image_path)
# 清理:移除所有逗号(防止干扰CSV解析),并分割为行
clean_lines = [re.sub(r",", "", line.strip()) for line in text.splitlines() if line.strip()]
all_lines.extend(clean_lines)
# 校验:必须是3的倍数(每组3个字段)
if len(all_lines) % 3 != 0:
raise ValueError(f"OCR共提取 {len(all_lines)} 行,不是3的倍数,请检查识别结果是否完整或存在空行")
# 按每3行分组
rows = [all_lines[i:i+3] for i in range(0, len(all_lines), 3)]
# 写入CSV(注意:newline='' 是csv模块必需参数,避免Windows下空行)
with open(output_csv, "w", newline="", encoding="utf-8") as f:
writer = csv.writer(f)
writer.writerows(rows)
print(f"✅ 已成功生成 {len(rows)} 条记录,保存至 {output_csv}")⚠️ 关键注意事项
- 不要重复打开文件写入:原代码中 print(..., file=open("address.txt", 'a')) 在循环内反复调用 open(),既低效又易因编码/缓冲问题导致乱码;新方案统一收集后批量写入,更稳定。
- 编码与换行:csv.writer 必须指定 newline="",否则在Windows系统中可能产生双换行(\r\n\r\n)。
- 空行过滤:if line.strip() 确保忽略OCR识别出的空白行或仅含空格的行,提升鲁棒性。
- 错误定位友好:assert 或 raise ValueError 明确提示行数异常,便于快速排查OCR漏识别或图像质量问题。
✅ 输出效果示例
输入OCR文本(经清理后):
John Doe 123 Main St New York NY 10001 Jane Smith 456 Oak Ave Los Angeles CA 90210
生成的 address_

John Doe,123 Main St,"New York NY 10001" Jane Smith,456 Oak Ave,"Los Angeles CA 90210"
注:csv.writer 自动为含空格的字段加引号,确保语义无歧义。
通过此方案,你彻底摆脱了“先生成txt → 手动编辑 → 再转csv”的繁琐链路,实现OCR到结构化数据的一站式、可复现、易维护的自动化处理。
# excel
# windows
# 编码
# csv
# ai
# win
# windows系统
# csv文件
# 排列
# pandas
# print
# if
# 循环
# raise
# 切片
# ocr
# 自动化
# 换行
# 每组
# 文本文件
# 移除
# 结构化
# 行数
# 是一个
# 切分
# 可直接
# 则在
相关栏目:
【
网站优化151355 】
【
网络推广146373 】
【
网络技术251813 】
【
AI营销90571 】
相关推荐:
黑客入侵网站服务器的常见手法有哪些?
Laravel Docker环境搭建教程_Laravel Sail使用指南
Laravel的.env文件有什么用_Laravel环境变量配置与管理详解
清除minerd进程的简单方法
标题:Vue + Vuex 项目中正确使用 JWT 进行身份认证的实践指南
Laravel如何实现邮箱地址验证功能_Laravel邮件验证流程与配置
如何在IIS服务器上快速部署高效网站?
IOS倒计时设置UIButton标题title的抖动问题
个人网站制作流程图片大全,个人网站如何注销?
轻松掌握MySQL函数中的last_insert_id()
Laravel如何使用软删除(Soft Deletes)功能_Eloquent软删除与数据恢复方法
Laravel中间件如何使用_Laravel自定义中间件实现权限控制
Laravel如何实现用户角色和权限系统_Laravel角色权限管理机制
桂林网站制作公司有哪些,桂林马拉松怎么报名?
ChatGPT 4.0官网入口地址 ChatGPT在线体验官网
java ZXing生成二维码及条码实例分享
网易LOFTER官网链接 老福特网页版登录地址
Laravel队列任务超时怎么办_Laravel Queue Timeout设置详解
如何在Tomcat中配置并部署网站项目?
Laravel怎么上传文件_Laravel图片上传及存储配置
如何使用 Go 正则表达式精准提取括号内首个纯字母标识符(忽略数字与嵌套)
Laravel如何连接多个数据库_Laravel多数据库连接配置与切换教程
高防服务器租用指南:配置选择与快速部署攻略
Laravel如何实现RSS订阅源功能_Laravel动态生成网站XML格式订阅内容【教程】
千问怎样用提示词获取健康建议_千问健康类提示词注意事项【指南】
Swift中循环语句中的转移语句 break 和 continue
Laravel怎么防止CSRF攻击_Laravel CSRF保护中间件原理与实践
如何自定义safari浏览器工具栏?个性化设置safari浏览器界面教程【技巧】
android nfc常用标签读取总结
如何在橙子建站上传落地页?操作指南详解
Laravel如何实现一对一模型关联?(Eloquent示例)
HTML5空格和nbsp有啥关系_nbsp的作用及使用场景【说明】
如何快速重置建站主机并恢复默认配置?
如何快速搭建高效WAP手机网站?
免费的流程图制作网站有哪些,2025年教师初级职称申报网上流程?
Laravel Sail是什么_基于Docker的Laravel本地开发环境Sail入门
香港代理服务器配置指南:高匿IP选择、跨境加速与SEO优化技巧
html如何与html链接_实现多个HTML页面互相链接【互相】
如何在IIS管理器中快速创建并配置网站?
活动邀请函制作网站有哪些,活动邀请函文案?
英语简历制作免费网站推荐,如何将简历翻译成英文?
Laravel如何处理文件下载请求?(Response示例)
如何在VPS电脑上快速搭建网站?
微博html5版本怎么弄发超话_超话进入入口及发帖格式要求【教程】
个人摄影网站制作流程,摄影爱好者都去什么网站?
详解MySQL数据库的安装与密码配置
如何安全更换建站之星模板并保留数据?
Laravel怎么返回JSON格式数据_Laravel API资源Response响应格式化【技巧】
如何实现建站之星域名转发设置?
在Oracle关闭情况下如何修改spfile的参数

