zerox ocr工具PDF转markdown

最新推荐文章于 2025-07-04 15:47:55 发布

珍妮玛•黛金

最新推荐文章于 2025-07-04 15:47:55 发布

阅读量1.8k

点赞数 11

CC 4.0 BY-SA版权

分类专栏： AI 文章标签： ocr pdf markdown python

本文链接：https://blog.csdn.net/woshiwangdaye/article/details/144451231

zerox ocr工具PDF转markdown

Zerox
火山视觉大模型
开始使用
- zerox.py
- doubao.py

Zerox

zerox是一个开源OCR工具，借助AI视觉大模型，可以将PDF WORD 图片等格式文档转换成markdown格式，而且他还支持LiteLLM，集成了市面上目前所有的大语言模型，同时也支持火山引擎（豆包）的所有模型，这里最好用视觉模型

github地址: zerox

还有很多其他的优秀开源框架

extract：https://github.com/CatchTheTornado/pdf-extract-api
e2m：https://github.com/wisupai/e2m/blob/main/README-zh.md
Nought：https://github.com/facebookresearch/nougat
Marker：https://github.com/VikParuchuri/marker
MinerU：https://github.com/opendatalab/MinerU
gptpdf：https://github.com/CosmosShadow/gptpdf
PDF-Extract-Kit：https://github.com/opendatalab/PDF-Extract-Kit
zerox：https://github.com/getomni-ai/zerox
OminiParse：https://github.com/adithya-s-k/omniparse
pix2text：https://github.com/breezedeus/Pix2Text
gptpdf：https://github.com/CosmosShadow/gptpdf

saas版本，个人觉得textin的效果最好，特别是公式，图片，表格的识别准确率很高，而且支持API调用，缺点就是太贵了

https://www.textin.com/experience/pdf_to_markdown
https://snip.mathpix.com/home

环境准备

windows 10 64bit
python 3.12
nodejs 22.12
条件好的可以装conda

支持的文档格式

[
  "pdf", // Portable Document Format
  "doc", // Microsoft Word 97-2003
  "docx", // Microsoft Word 2007-2019
  "odt", // OpenDocument Text
  "ott", // OpenDocument Text Template
  "rtf", // Rich Text Format
  "txt", // Plain Text
  "html", // HTML Document
  "htm", // HTML Document (alternative extension)
  "xml", // XML Document
  "wps", // Microsoft Works Word Processor
  "wpd", // WordPerfect Document
  "xls",