概述:
除了原始文本数据,可能还希望从其他文件类型(如PowerPoint演示文稿或PDF)中提取信息。
可以使用LangChain文档加载程序将文件解析为可以输入LLM的文本格式。
基于MIME类型的解析
数据加载
import requests
response = requests.get("https://en.wikipedia.org/wiki/Car")
data = response.content
data[:20]
返回:
b'<!DOCTYPE html>\n<htm'
配置解析器
加载依赖
import magic #导入 magic 库,这是一个在 Python 中用于文件类型检测的库,可以根据文件内容判断其 MIME 类型
pip install python-magic-bin
from langchain.document_loaders.