网络抓取是为检索增强生成 (RAG) 应用程序收集内容的常用方法。然而,解析网页内容可能具有挑战性。
Mozilla 的开源 Readability.js 库提供了一种方便的解决方案,用于仅提取网页的基本部分。 让我们探讨一下它将其集成到 RAG 应用程序的数据摄取管道中。
从网页中提取非结构化数据
网页是非结构化数据的丰富来源,非常适合 RAG 应用程序。 然而,网页通常包含不相关的信息,例如页眉、侧边栏和页脚。虽然这些额外内容对于浏览很有用,但会分散页面的主要主题。
为了获得最佳的 RAG 数据,必须删除不相关的内容。 虽然像 Cheerio 这样的工具可以根据网站的已知结构解析 HTML,但这种方法对于抓取不同的网站布局效率很低。需要一种强大的方法来仅提取相关内容。
利用阅读器视图功能
大多数浏览器都包含一个阅读器视图,该视图会删除除文章标题和内容之外的所有内容。下图说明了应用于 DataStax 博客文章的标准浏览模式和阅读器模式之间的区别:
Mozilla 提供 Readability.js(Firefox 阅读器模式背后的库)作为独立的开源模块。这使我们能够将 Readability.js 集成到数据管道中,以删除不相关的内容并改善抓取结果。
使用 Node.js 和 Readability.js 抓取数据
让我们举例说明如何从之前关于在 Node.js 中创建矢量嵌入的博客文章中抓取文章内容。 以下 JavaScript 代码检索页面的 HTML:
const html = await fetch( "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js" ).then((res) => res.text()); console.log(html);
这包括所有 HTML,包括导航、页脚和网站上常见的其他元素。
或者,您可以使用 Cheerio 来选择特定元素:
npm install cheerio
import * as cheerio from "cheerio"; const html = await fetch( "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js" ).then((res) => res.text()); const $ = cheerio.load(html); console.log($("h1").text(), "\n"); console.log($("section#blog-content > div:first-child").text());
这会产生标题和文章文本。 然而,这种方法依赖于了解 HTML 结构,这并不总是可行。
更好的方法是安装 Readability.js 和 jsdom:
npm install @mozilla/readability jsdom
Readability.js 在浏览器环境中运行,需要 jsdom 在 Node.js 中模拟它。 我们可以将加载的 HTML 转换为文档并使用 Readability.js 解析内容:
import { Readability } from "@mozilla/readability"; import { JSDOM } from "jsdom"; const url = "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js"; const html = await fetch(url).then((res) => res.text()); const doc = new JSDOM(html, { url }); const reader = new Readability(doc.window.document); const article = reader.parse(); console.log(article);
article
对象包含各种解析元素:
这包括标题、作者、摘录、出版时间以及 HTML (content
) 和纯文本 (textContent
)。 textContent
已准备好进行分块、嵌入和存储,而 content
保留链接和图像以供进一步处理。
isProbablyReaderable
函数有助于确定文档是否适合 Readability.js:
const html = await fetch( "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js" ).then((res) => res.text()); console.log(html);
不合适的页面应被标记以供审核。
将可读性与 LangChain.js 集成
Readability.js 与 LangChain.js 无缝集成。以下示例使用 LangChain.js 加载页面,使用 MozillaReadabilityTransformer
提取内容,使用 RecursiveCharacterTextSplitter
分割文本,使用 OpenAI 创建嵌入,并将数据存储在 Astra DB 中。
所需的依赖项:
npm install cheerio
您需要 Astra DB 凭据(ASTRA_DB_APPLICATION_TOKEN
、ASTRA_DB_API_ENDPOINT
)和 OpenAI API 密钥 (OPENAI_API_KEY
) 作为环境变量。
导入必要的模块:
import * as cheerio from "cheerio"; const html = await fetch( "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js" ).then((res) => res.text()); const $ = cheerio.load(html); console.log($("h1").text(), "\n"); console.log($("section#blog-content > div:first-child").text());
初始化组件:
npm install @mozilla/readability jsdom
加载、转换、分割、嵌入和存储文档:
import { Readability } from "@mozilla/readability"; import { JSDOM } from "jsdom"; const url = "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js"; const html = await fetch(url).then((res) => res.text()); const doc = new JSDOM(html, { url }); const reader = new Readability(doc.window.document); const article = reader.parse(); console.log(article);
通过 Readability.js 提高网页抓取准确性
Readability.js 是一个为 Firefox 阅读器模式提供支持的强大库,可以有效地从网页中提取相关数据,从而提高 RAG 数据质量。 可以直接使用,也可以通过LangChain.js的MozillaReadabilityTransformer
.
这只是摄取管道的初始阶段。 分块、嵌入和 Astra DB 存储是构建 RAG 应用程序的后续步骤。
您是否使用其他方法来清理 RAG 应用程序中的网页内容? 分享你的技巧!
以上是使用 Readability.js 清理 HTML 内容以进行检索增强生成的详细内容。更多信息请关注PHP中文网其他相关文章!

JavaScript字符串替换方法详解及常见问题解答 本文将探讨两种在JavaScript中替换字符串字符的方法:在JavaScript代码内部替换和在网页HTML内部替换。 在JavaScript代码内部替换字符串 最直接的方法是使用replace()方法: str = str.replace("find","replace"); 该方法仅替换第一个匹配项。要替换所有匹配项,需使用正则表达式并添加全局标志g: str = str.replace(/fi

利用轻松的网页布局:8个基本插件 jQuery大大简化了网页布局。 本文重点介绍了简化该过程的八个功能强大的JQuery插件,对于手动网站创建特别有用

因此,在这里,您准备好了解所有称为Ajax的东西。但是,到底是什么? AJAX一词是指用于创建动态,交互式Web内容的一系列宽松的技术。 Ajax一词,最初由Jesse J创造

10款趣味横生的jQuery游戏插件,让您的网站更具吸引力,提升用户粘性!虽然Flash仍然是开发休闲网页游戏的最佳软件,但jQuery也能创造出令人惊喜的效果,虽然无法与纯动作Flash游戏媲美,但在某些情况下,您也能在浏览器中获得意想不到的乐趣。 jQuery井字棋游戏 游戏编程的“Hello world”,现在有了jQuery版本。 源码 jQuery疯狂填词游戏 这是一个填空游戏,由于不知道单词的上下文,可能会产生一些古怪的结果。 源码 jQuery扫雷游戏

本教程演示了创建通过Ajax加载的动态页面框,从而可以即时刷新,而无需全页重新加载。 它利用jQuery和JavaScript。将其视为自定义的Facebook式内容框加载程序。 关键概念: Ajax和JQuery

本教程演示了如何使用jQuery创建迷人的视差背景效果。 我们将构建一个带有分层图像的标题横幅,从而创造出令人惊叹的视觉深度。 更新的插件可与JQuery 1.6.4及更高版本一起使用。 下载

此JavaScript库利用窗口。名称属性可以管理会话数据,而无需依赖cookie。 它为浏览器中存储和检索会话变量提供了强大的解决方案。 库提供了三种核心方法:会话


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

MinGW - 适用于 Windows 的极简 GNU
这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

WebStorm Mac版
好用的JavaScript开发工具

Atom编辑器mac版下载
最流行的的开源编辑器

ZendStudio 13.5.1 Mac
功能强大的PHP集成开发环境