찾다
웹 프론트엔드JS 튜토리얼Readability.js를 사용하여 검색 증강 생성을 위한 HTML 콘텐츠 정리

웹 스크래핑은 RAG(검색 증강 생성) 애플리케이션용 콘텐츠를 수집하는 일반적인 방법입니다. 그러나 웹페이지 콘텐츠를 구문 분석하는 것은 어려울 수 있습니다.

Mozilla의 오픈 소스 Readability.js 라이브러리는 웹 페이지의 필수 부분만 추출할 수 있는 편리한 솔루션을 제공합니다. RAG 애플리케이션을 위한 데이터 수집 파이프라인으로의 통합을 살펴보겠습니다.

웹 페이지에서 구조화되지 않은 데이터 추출

웹 페이지는 구조화되지 않은 데이터의 풍부한 소스로 RAG 애플리케이션에 이상적입니다. 그러나 웹페이지에는 헤더, 사이드바, 바닥글 등 관련 없는 정보가 포함되어 있는 경우가 많습니다. 이러한 추가 콘텐츠는 탐색에는 유용하지만 페이지의 주요 주제를 손상시킵니다.

최적의 RAG 데이터를 위해서는 관련 없는 콘텐츠를 제거해야 합니다. Cheerio와 같은 도구는 사이트의 알려진 구조를 기반으로 HTML을 구문 분석할 수 있지만 이 접근 방식은 다양한 웹 사이트 레이아웃을 스크랩하는 데는 비효율적입니다. 관련 콘텐츠만 추출하려면 강력한 방법이 필요합니다.

리더뷰 기능 활용

대부분의 브라우저에는 기사 제목과 내용을 제외한 모든 항목을 제거하는 독자 보기가 포함되어 있습니다. 다음 이미지는 DataStax 블로그 게시물에 적용되는 표준 탐색 모드와 리더 모드 간의 차이점을 보여줍니다.

Clean up HTML Content for Retrieval-Augmented Generation with Readability.js

Mozilla는 Firefox의 리더 모드 뒤에 있는 라이브러리인 Readability.js를 독립형 오픈 소스 모듈로 제공합니다. 이를 통해 Readability.js를 데이터 파이프라인에 통합하여 관련 없는 콘텐츠를 제거하고 스크래핑 결과를 개선할 수 있습니다.

Node.js 및 Readability.js를 사용하여 데이터 스크래핑

Node.js에서 벡터 임베딩 생성에 관한 이전 블로그 게시물의 기사 콘텐츠를 스크랩하는 방법을 설명해 보겠습니다. 다음 JavaScript 코드는 페이지의 HTML을 검색합니다.

const html = await fetch(
  "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js"
).then((res) => res.text());
console.log(html);

여기에는 탐색, 바닥글 및 웹사이트에서 일반적으로 사용되는 기타 요소를 포함한 모든 HTML이 포함됩니다.

또는 Cheerio를 사용하여 특정 요소를 선택할 수도 있습니다.

npm install cheerio
import * as cheerio from "cheerio";

const html = await fetch(
  "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js"
).then((res) => res.text());

const $ = cheerio.load(html);

console.log($("h1").text(), "\n");
console.log($("section#blog-content > div:first-child").text());

제목과 기사 텍스트가 생성됩니다. 그러나 이 접근 방식은 HTML 구조를 아는 것에 의존하므로 항상 가능한 것은 아닙니다.

더 나은 접근 방식은 Readability.js 및 jsdom을 설치하는 것입니다.

npm install @mozilla/readability jsdom

Readability.js는 브라우저 환경 내에서 작동하므로 Node.js에서 이를 시뮬레이션하려면 jsdom이 필요합니다. 로드된 HTML을 문서로 변환하고 Readability.js를 사용하여 콘텐츠를 구문 분석할 수 있습니다.

import { Readability } from "@mozilla/readability";
import { JSDOM } from "jsdom";

const url = "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js";
const html = await fetch(url).then((res) => res.text());

const doc = new JSDOM(html, { url });
const reader = new Readability(doc.window.document);
const article = reader.parse();

console.log(article);

article 객체에는 다양한 구문 분석 요소가 포함되어 있습니다.

Clean up HTML Content for Retrieval-Augmented Generation with Readability.js

여기에는 제목, 저자, 발췌문, 출판 시간, HTML(content) 및 일반 텍스트(textContent)가 모두 포함됩니다. textContent은 청킹, 임베딩 및 저장이 가능한 반면 content은 추가 처리를 위해 링크와 이미지를 유지합니다.

isProbablyReaderable 함수는 문서가 Readability.js에 적합한지 결정하는 데 도움이 됩니다.

const html = await fetch(
  "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js"
).then((res) => res.text());
console.log(html);

부적합한 페이지는 검토를 위해 신고해야 합니다.

LangChain.js와 가독성 통합

Readability.js는 LangChain.js와 완벽하게 통합됩니다. 다음 예에서는 LangChain.js를 사용하여 페이지를 로드하고, MozillaReadabilityTransformer로 콘텐츠를 추출하고, RecursiveCharacterTextSplitter로 텍스트를 분할하고, OpenAI로 임베딩을 생성하고, Astra DB에 데이터를 저장합니다.

필수 종속성:

npm install cheerio

환경 변수로 Astra DB 자격 증명(ASTRA_DB_APPLICATION_TOKEN, ASTRA_DB_API_ENDPOINT)과 OpenAI API 키(OPENAI_API_KEY)가 필요합니다.

필요한 모듈 가져오기:

import * as cheerio from "cheerio";

const html = await fetch(
  "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js"
).then((res) => res.text());

const $ = cheerio.load(html);

console.log($("h1").text(), "\n");
console.log($("section#blog-content > div:first-child").text());

구성요소 초기화:

npm install @mozilla/readability jsdom

문서 로드, 변환, 분할, 포함 및 저장:

import { Readability } from "@mozilla/readability";
import { JSDOM } from "jsdom";

const url = "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js";
const html = await fetch(url).then((res) => res.text());

const doc = new JSDOM(html, { url });
const reader = new Readability(doc.window.document);
const article = reader.parse();

console.log(article);

Readability.js로 향상된 웹 스크래핑 정확도

Firefox의 리더 모드를 지원하는 강력한 라이브러리인 Readability.js는 웹 페이지에서 관련 데이터를 효율적으로 추출하여 RAG 데이터 품질을 향상시킵니다. 직접 사용하거나 LangChain.js의 MozillaReadabilityTransformer.

을 통해 사용할 수 있습니다.

이것은 수집 파이프라인의 초기 단계에 불과합니다. 청킹, 임베딩 및 Astra DB 스토리지는 RAG 애플리케이션 구축의 후속 단계입니다.

RAG 애플리케이션에서 웹 콘텐츠를 정리하기 위해 다른 방법을 사용하시나요? 당신의 기술을 공유하세요!

위 내용은 Readability.js를 사용하여 검색 증강 생성을 위한 HTML 콘텐츠 정리의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
JavaScript 댓글 : / / * * /사용 안내서JavaScript 댓글 : / / * * /사용 안내서May 13, 2025 pm 03:49 PM

javaScriptUSTWOTYPESOFSOFCOMMENTS : 단일 라인 (//) 및 multi-line (//)

Python vs. JavaScript : 개발자를위한 비교 분석Python vs. JavaScript : 개발자를위한 비교 분석May 09, 2025 am 12:22 AM

Python과 JavaScript의 주요 차이점은 유형 시스템 및 응용 프로그램 시나리오입니다. 1. Python은 과학 컴퓨팅 및 데이터 분석에 적합한 동적 유형을 사용합니다. 2. JavaScript는 약한 유형을 채택하며 프론트 엔드 및 풀 스택 개발에 널리 사용됩니다. 두 사람은 비동기 프로그래밍 및 성능 최적화에서 고유 한 장점을 가지고 있으며 선택할 때 프로젝트 요구 사항에 따라 결정해야합니다.

Python vs. JavaScript : 작업에 적합한 도구 선택Python vs. JavaScript : 작업에 적합한 도구 선택May 08, 2025 am 12:10 AM

Python 또는 JavaScript를 선택할지 여부는 프로젝트 유형에 따라 다릅니다. 1) 데이터 과학 및 자동화 작업을 위해 Python을 선택하십시오. 2) 프론트 엔드 및 풀 스택 개발을 위해 JavaScript를 선택하십시오. Python은 데이터 처리 및 자동화 분야에서 강력한 라이브러리에 선호되는 반면 JavaScript는 웹 상호 작용 및 전체 스택 개발의 장점에 없어서는 안될 필수입니다.

파이썬 및 자바 스크립트 : 각각의 강점을 이해합니다파이썬 및 자바 스크립트 : 각각의 강점을 이해합니다May 06, 2025 am 12:15 AM

파이썬과 자바 스크립트는 각각 고유 한 장점이 있으며 선택은 프로젝트 요구와 개인 선호도에 따라 다릅니다. 1. Python은 간결한 구문으로 데이터 과학 및 백엔드 개발에 적합하지만 실행 속도가 느립니다. 2. JavaScript는 프론트 엔드 개발의 모든 곳에 있으며 강력한 비동기 프로그래밍 기능을 가지고 있습니다. node.js는 풀 스택 개발에 적합하지만 구문은 복잡하고 오류가 발생할 수 있습니다.

JavaScript의 핵심 : C 또는 C에 구축 되었습니까?JavaScript의 핵심 : C 또는 C에 구축 되었습니까?May 05, 2025 am 12:07 AM

javaScriptisNotBuiltoncorc; it'SangretedLanguageThatrunsonOngineStenWrittenInc .1) javaScriptWasDesignEdasAlightweight, 해석 hanguageforwebbrowsers.2) Endinesevolvedfromsimpleplemporectreterstoccilpilers, 전기적으로 개선된다.

JavaScript 응용 프로그램 : 프론트 엔드에서 백엔드까지JavaScript 응용 프로그램 : 프론트 엔드에서 백엔드까지May 04, 2025 am 12:12 AM

JavaScript는 프론트 엔드 및 백엔드 개발에 사용할 수 있습니다. 프론트 엔드는 DOM 작업을 통해 사용자 경험을 향상시키고 백엔드는 Node.js를 통해 서버 작업을 처리합니다. 1. 프론트 엔드 예 : 웹 페이지 텍스트의 내용을 변경하십시오. 2. 백엔드 예제 : node.js 서버를 만듭니다.

Python vs. JavaScript : 어떤 언어를 배워야합니까?Python vs. JavaScript : 어떤 언어를 배워야합니까?May 03, 2025 am 12:10 AM

Python 또는 JavaScript는 경력 개발, 학습 곡선 및 생태계를 기반으로해야합니다. 1) 경력 개발 : Python은 데이터 과학 및 백엔드 개발에 적합한 반면 JavaScript는 프론트 엔드 및 풀 스택 개발에 적합합니다. 2) 학습 곡선 : Python 구문은 간결하며 초보자에게 적합합니다. JavaScript Syntax는 유연합니다. 3) 생태계 : Python에는 풍부한 과학 컴퓨팅 라이브러리가 있으며 JavaScript는 강력한 프론트 엔드 프레임 워크를 가지고 있습니다.

JavaScript 프레임 워크 : 현대적인 웹 개발 파워JavaScript 프레임 워크 : 현대적인 웹 개발 파워May 02, 2025 am 12:04 AM

JavaScript 프레임 워크의 힘은 개발 단순화, 사용자 경험 및 응용 프로그램 성능을 향상시키는 데 있습니다. 프레임 워크를 선택할 때 : 1. 프로젝트 규모와 복잡성, 2. 팀 경험, 3. 생태계 및 커뮤니티 지원.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

VSCode Windows 64비트 다운로드

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

ZendStudio 13.5.1 맥

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

PhpStorm 맥 버전

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구