#langchain | RAG |富文本一致性解析 | NLP # langchain支持的9种PDF内容提取方式

本文链接：https://blog.csdn.net/weixin_45312236/article/details/137862172

# 读取markdown内容
from langchain_community.document_loaders import UnstructuredPDFLoader
from langchain import document_loaders

# 用到的所有方法
# load_pdf_file_langchain_unstructed # x按照行，无结构化
# load_pdf_file_pypdf # x按照页码，无结构化
# load_pdf_file_MathPix #  x需要填写app_id、app_key（公司付费可申请api），可以转成markdown，多级标题，字体大小相似不能识别
# load_pdf_file_unstructed # x按照行或者全文，无结构化
# load_pdf_file_PyPDFium2 # x按照页码，无结构化
# load_pdf_file_PDFMiner # x无结构化,甚至没有分页
# load_pdf_file_html # 需要改进算法
# load_pdf_file_PyPDFDirectory #  x无结构化，只是能从文件夹去读取pdf文件，读取结果还是按照页码
# load_pdf_file_AmazonTextractPDFLoader # x无结构话，官方文档只提到提取文本，为提取到提取header或者提取结构


def load_pdf_file_langchain_unstructed(content_path):
    loader = loader = UnstructuredPDFLoader(content_path, mode="elements")
    data = loader.load()
    for page in data:
        print('-------------------')
        print('content')
        print(page.page_content)
        print('metadata')
        print(page.metadata)
    return data

def load_pdf_file_pypdf(content_path):
    from langchain_community.document_loaders import PyPDFLoader
    loader = PyPDFLoader(content_path)
    pages = loader.load_and_split()
    for page in pages:
        print('-------------------')
        print('content')
        print(page.page_content)
        print('metadata')
        print(page.metadata)
    return pages
    
def load_pdf_file_MathPix(content_path):
    from langchain_community.document_loaders import MathpixPDFLoader
    loader = MathpixPDFLoader(content_path)
    data = loader.load()
    for page in data:
        print('-------------------')
        print