财务福音。用Python+OCR人工智能识别发票自动存入Excel表格保姆级教程_开源发票识别(1)

本文介绍了如何使用ImageMagick和TesseractOCR引擎,配合Python编程实现发票号码、税额和销方名称的自动识别。作者详细展示了通过pyocr调用Tesseract进行图像处理和文本提取的过程,以及如何将结果整合到Excel文件中。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ImageMagick包括许多用于处理图像的命令行实用程序。

ImageMagick的下载地址是:

https://docs.wand-py.org/en/latest/guide/install.html#install-imagemagick-on-windows

Tesseract是一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,我们可以不断地训练库,使图像转换文本的能力不断增强。如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。

tesseract-OCR的下载地址是:

https://digi.bib.uni-mannheim.de/tesseract/

安装后要配置环境变量:

源代码

1. 读取发票

ocr = CnOcr()``tool = pyocr.get_available_tools()[0]`
`img_url = "pic/fp01.jpg"``with open(img_url, 'rb') as f:`    `a = f.read()``new_img = PI.open(io.BytesIO(a))``new_img.show()

2. 提取发票号码

def text1(new_img):`
    `left = 1530`    `top
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值