使用GutenbergLoader加载项目Gutenberg电子书-CSDN博客

本文链接：https://blog.csdn.net/qq_29929123/article/details/148870989

在现代应用中，文档加载器被广泛用于处理和分析各种格式的文本数据。在本文中，我们将重点介绍如何使用GutenbergLoader来加载项目Gutenberg的电子书并将其转换为可供后续处理的文档格式。

技术背景介绍

项目Gutenberg是一个在线数字图书馆，提供大量的免费电子书资源。为了有效地使用这些电子书，我们通常需要将它们的内容加载到一个可处理的文档格式。这使得后续的数据分析、自然语言处理等任务的执行更加方便。

核心原理解析

GutenbergLoader是一个专用的文档加载器，用于从项目Gutenberg网站上获取电子书的文本数据。它将电子书内容下载并解析，然后生成一个包含文本内容及其元数据的文档对象。

代码实现演示

以下是使用GutenbergLoader加载项目Gutenberg电子书的完整代码示例：

from langchain_community.document_loaders import GutenbergLoader

# 实例化一个GutenbergLoader对象
loader = GutenbergLoader("https://www.gutenberg.org/cache/epub/69972/pg69972.txt")

# 加载数据
data = loader.load()

# 输出前300个字符的内容
print(data[0].page_content[:300])

# 输出文档元数据
print(data[0].metadata)