Dify又一神器 - Firecrawl一键爬取网站，打造更丰富的AI知识库！

最新推荐文章于 2025-06-10 10:30:03 发布

m0_74824534

最新推荐文章于 2025-06-10 10:30:03 发布

阅读量1.1k

点赞数 14

CC 4.0 BY-SA版权

分类专栏：面试学习路线阿里巴巴文章标签：人工智能

本文链接：https://blog.csdn.net/m0_74824534/article/details/148436525

面试同时被 3 个专栏收录

105 篇文章

订阅专栏

学习路线

105 篇文章

订阅专栏

阿里巴巴

105 篇文章

订阅专栏

在当今信息爆炸的时代，构建高效、全面的知识库对于企业和个人而言至关重要。然而，如何快速、高效地从海量网络数据中提取有价值的信息，一直是个挑战。幸运的是，FireCrawl 的出现为我们提供了全新的解决方案。

FireCrawl：AI驱动的智能爬虫工具

FireCrawl 是由 Mendable.ai 开发的开源项目，旨在将网站内容转换为适用于大型语言模型（LLM）的结构化数据。它无需站点地图即可抓取任何网站的所有可访问子页面，并将这些内容转换为干净、格式化的 Markdown 文档。

你也可以本地部署，可以按照READEME.md来进行本地部署项目地址：https://github.com/mendableai/firecrawl 本例中使用的是Cloud版本的FireCrawl()

核心优势

系统性智能抓取：FireCrawl 能够智能发现并追踪网站内部链接，确保内容的完整性和连贯性。
精准内容识别与过滤：它能智能识别并提取网页中的主要内容，自动过滤广告、导航栏等无关元素，确保保留对 AI 系统有用的核心信息。
语义化结构转换：FireCrawl 将抓取的网页内容转换为清晰、格式化的 Markdown 文档，保留标题、段落、列表等元素的层级关系，方便后续处理和分析。
用户友好的操作体验：无需编程知识，只需输入目标 URL，即可完成 Web 知识库的一键式生成。

本地部署 FireCrawl 的步骤

为了满足对数据隐私和安全性的需求，您可以选择在本地环境中部署 FireCrawl。以下是简要的部署步骤：

克隆代码仓库：在终端中执行以下命令，将 FireCrawl 的代码克隆到本地：

git clone https://github.com/mendableai/firecrawl.git

设置环境参数：进入克隆的目录，复制环境变量模板文件，并进行必要的配置：

cd firecrawl
cp?.env.example?.env

使用文本编辑器打开 .env 文件，修改以下参数：

USE_DB_AUTHENTICATION：设置为 false，表示不使用数据库认证。

TEST_API_KEY：设置一个自定义的 API 密钥，例如 your_api_key。

启动 FireCrawl：在终端中执行以下命令，使用 Docker Compose 启动 FireCrawl：

docker-compose up?-d

配置 Dify 与 FireCrawl 的集成：在 Dify 的设置中，添加 FireCrawl 的 API 配置，确保 Base URL 设置为 http://host.docker.internal:3002，并输入之前设置的 API 密钥。

应用场景

技术文档的知识库构建：利用 FireCrawl，您可以快速爬取官方文档，构建全面的知识库，方便技术学习和查询。
市场调研与竞争分析：通过爬取目标公司发布的市场调研和商业洞见，获取最新的行业动态和竞争情报。

Dify FireCrawl插件

在dify的插件市场已经封装了FireCrawl调用

你只需要简单的点击安装即可享用；当然在使用Cloud版本的FirCrawl要注意的一点是需要在平台上生成API Key，地址：https://www.firecrawl.dev/

可以在Dify平台直接点击登录生成API Key

在FireCrawl平台注册成功后你可以查看Api Key

拿到key直接在Dify填入授权即可使用FireCrawl插件

Dify平台构建知识库

Dify和FireCrawl集成已经很好了，在Dify创建知识库可以直接通过FireCrawl生成，不用你再去粘贴复制，生成文件这么麻烦

这里我用 https://www.promptingguide.ai/zh 这个网页为例生成一个提示词相关的知识库，效果如下：

抓取结束

经过一段时间的知识库处理，大工告成??，接下来就可以愉快的使用基于网页的知识库了。

总结

FireCrawl 通过其强大的功能和简便的操作，为构建高质量的 AI 知识库提供了一站式解决方案。无论是企业还是个人，都可以利用 FireCrawl 高效地从网络中提取有价值的信息，助力 AI 应用的开发和优化。

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！**超高年薪，挖掘AI大模型人才！**如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

基于此，我用做产品的心态来打磨这份大模型教程，深挖痛点并持续修改了近70次后，终于把整个AI大模型的学习门槛，降到了最低！

在这个版本当中：

第一您不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言

您只需要听我讲，跟着我做即可，为了让学习的道路变得更简单，这份大模型教程已经给大家整理并打包，现在将这份资料分享出来：包括书籍、640套大模型行业报告、学习视频、学习路线、开源大模型学习教程等, ??有需要的小伙伴，可以扫描下方二维码领取??↓↓↓

一、经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
在这里插入图片描述

三、系列视频教程

在这里插入图片描述

四、开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

五、AI产品经理大模型教程

在这里插入图片描述

学习路线↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望