Zerox
zerox是一个开源OCR工具,借助AI视觉大模型,可以将PDF WORD 图片等格式文档转换成markdown格式 ,而且他还支持LiteLLM,集成了市面上目前所有的大语言模型,同时也支持火山引擎(豆包)的所有模型,这里最好用视觉模型
github地址: zerox
还有很多其他的优秀开源框架
extract:https://github.com/CatchTheTornado/pdf-extract-api
e2m:https://github.com/wisupai/e2m/blob/main/README-zh.md
Nought:https://github.com/facebookresearch/nougat
Marker:https://github.com/VikParuchuri/marker
MinerU:https://github.com/opendatalab/MinerU
gptpdf:https://github.com/CosmosShadow/gptpdf
PDF-Extract-Kit:https://github.com/opendatalab/PDF-Extract-Kit
zerox:https://github.com/getomni-ai/zerox
OminiParse:https://github.com/adithya-s-k/omniparse
pix2text:https://github.com/breezedeus/Pix2Text
gptpdf:https://github.com/CosmosShadow/gptpdf
saas版本,个人觉得textin的效果最好,特别是公式,图片,表格的识别准确率很高,而且支持API调用,缺点就是太贵了
https://www.textin.com/experience/pdf_to_markdown
https://snip.mathpix.com/home
环境准备
windows 10 64bit
python 3.12
nodejs 22.12
条件好的可以装conda
支持的文档格式
[
"pdf", // Portable Document Format
"doc", // Microsoft Word 97-2003
"docx", // Microsoft Word 2007-2019
"odt", // OpenDocument Text
"ott", // OpenDocument Text Template
"rtf", // Rich Text Format
"txt", // Plain Text
"html", // HTML Document
"htm", // HTML Document (alternative extension)
"xml", // XML Document
"wps", // Microsoft Works Word Processor
"wpd", // WordPerfect Document
"xls",