1.2 从网页导入数据

2025-08-08 00:17:47 2019女足世界杯 8772

1. 导入文本数据1.2 从网页导入数据Copy pageCopy page知识库支持通过第三方工具如 Jina Reader, Firecrawl 抓取公开网页中的内容,解析为 Markdown 内容并导入至知识库。

Jina Reader 和 Firecrawl 均是开源的网页解析工具,能将网页将其转换为干净并且方便 LLM 识别的 Markdown 格式文本,同时提供了易于使用的 API 服务。

下文将分别介绍 Firecrawl 和 Jina Reader 的使用方法。

​Firecrawl

​配置 Firecrawl 凭据

点击右上角头像,然后前往 DataSource 页面,点击 Firecrawl 右侧的 Configure 按钮。

登录 Firecrawl 官网 完成注册,获取 API Key 后按照页面提示填入并点击保存。

​使用 Firecrawl 抓取网页内容

在知识库创建页选择 Sync from website,provider 选中 Firecrawl,填入需要抓取的目标 URL。

设置中的配置项包括:是否抓取子页面、抓取页面数量上限、页面抓取深度、排除页面、仅抓取页面、提取内容。完成配置后点击 Run,预览将要被抓取的目标页面链接。

导入网页解析的文本后存储至知识库的文档中,查看导入结果。点击 Add URL 可以继续导入新的网页。抓取完成后,网页中的内容将会被收录至知识库内。

​Jina Reader

​配置 Jina Reader 凭据

点击右上角头像,然后前往 DataSource 页面,点击 Jina Reader 右侧的 Configure 按钮。

登录 Jina Reader 官网 完成注册,获取 API Key 后并按照页面提示填入并保存。

​使用 Jina Reader 抓取网页内容

在知识库创建页选择 Sync from website,provider 选中 Jina Reader,填写需要抓取的目标 URL。

设置中的配置项包括:是否抓取子页面、抓取页面数量上限、是否使用 sitemap 抓取。完成配置后点击 Run 按钮,预览将要被抓取的页面链接。

导入网页解析的文本后存储至知识库的文档中,查看导入结果。如需继续添加网页,轻点右侧 Add URL 按钮继续导入新的网页。

抓取完成后,网页中的内容将会被收录至知识库内。

编辑此页面 | 提交问题Was this page helpful?

YesNo1.1 从 Notion 导入数据2. 指定分段模式xgithublinkedinPowered by Mintlify

迷失岛六个三角块在哪 二周目六个三角石头怎么放解析攻略
组装机第一次装系统怎样装?组装机装系统详细步骤图文教程