财务福音。用Python+OCR人工智能识别发票自动存入Excel表格保姆级教程_开源发票识别(1)

2401_84139587

于 2024-05-02 13:44:23 发布

阅读量1.1k

点赞数 30

CC 4.0 BY-SA版权

分类专栏：程序员文章标签： python ocr 人工智能

本文链接：https://blog.csdn.net/2401_84139587/article/details/138390988

本文介绍了如何使用ImageMagick和TesseractOCR引擎，配合Python编程实现发票号码、税额和销方名称的自动识别。作者详细展示了通过pyocr调用Tesseract进行图像处理和文本提取的过程，以及如何将结果整合到Excel文件中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ImageMagick包括许多用于处理图像的命令行实用程序。

ImageMagick的下载地址是：

https://docs.wand-py.org/en/latest/guide/install.html#install-imagemagick-on-windows

Tesseract是一款由HP实验室开发由Google维护的开源OCR（Optical Character Recognition , 光学字符识别）引擎，与Microsoft Office Document Imaging（MODI）相比，我们可以不断地训练库，使图像转换文本的能力不断增强。如果团队深度需要，还可以以它为模板，开发出符合自身需求的OCR引擎。

tesseract-OCR的下载地址是：

https://digi.bib.uni-mannheim.de/tesseract/

安装后要配置环境变量：

源代码

1. 读取发票

ocr = CnOcr()``tool = pyocr.get_available_tools()[0]`
`img_url = "pic/fp01.jpg"``with open(img_url, 'rb') as f:`    `a = f.read()``new_img = PI.open(io.BytesIO(a))``new_img.show()

2. 提取发票号码

def text1(new_img):`
    `left = 1530`    `top

最低0.47元/天解锁文章

200万优质内容无限畅学