찾다
웹 프론트엔드JS 튜토리얼Readability.js를 사용하여 검색 증강 생성을 위한 HTML 콘텐츠 정리

웹 스크래핑은 RAG(검색 증강 생성) 애플리케이션용 콘텐츠를 수집하는 일반적인 방법입니다. 그러나 웹페이지 콘텐츠를 구문 분석하는 것은 어려울 수 있습니다.

Mozilla의 오픈 소스 Readability.js 라이브러리는 웹 페이지의 필수 부분만 추출할 수 있는 편리한 솔루션을 제공합니다. RAG 애플리케이션을 위한 데이터 수집 파이프라인으로의 통합을 살펴보겠습니다.

웹 페이지에서 구조화되지 않은 데이터 추출

웹 페이지는 구조화되지 않은 데이터의 풍부한 소스로 RAG 애플리케이션에 이상적입니다. 그러나 웹페이지에는 헤더, 사이드바, 바닥글 등 관련 없는 정보가 포함되어 있는 경우가 많습니다. 이러한 추가 콘텐츠는 탐색에는 유용하지만 페이지의 주요 주제를 손상시킵니다.

최적의 RAG 데이터를 위해서는 관련 없는 콘텐츠를 제거해야 합니다. Cheerio와 같은 도구는 사이트의 알려진 구조를 기반으로 HTML을 구문 분석할 수 있지만 이 접근 방식은 다양한 웹 사이트 레이아웃을 스크랩하는 데는 비효율적입니다. 관련 콘텐츠만 추출하려면 강력한 방법이 필요합니다.

리더뷰 기능 활용

대부분의 브라우저에는 기사 제목과 내용을 제외한 모든 항목을 제거하는 독자 보기가 포함되어 있습니다. 다음 이미지는 DataStax 블로그 게시물에 적용되는 표준 탐색 모드와 리더 모드 간의 차이점을 보여줍니다.

Clean up HTML Content for Retrieval-Augmented Generation with Readability.js

Mozilla는 Firefox의 리더 모드 뒤에 있는 라이브러리인 Readability.js를 독립형 오픈 소스 모듈로 제공합니다. 이를 통해 Readability.js를 데이터 파이프라인에 통합하여 관련 없는 콘텐츠를 제거하고 스크래핑 결과를 개선할 수 있습니다.

Node.js 및 Readability.js를 사용하여 데이터 스크래핑

Node.js에서 벡터 임베딩 생성에 관한 이전 블로그 게시물의 기사 콘텐츠를 스크랩하는 방법을 설명해 보겠습니다. 다음 JavaScript 코드는 페이지의 HTML을 검색합니다.

const html = await fetch(
  "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js"
).then((res) => res.text());
console.log(html);

여기에는 탐색, 바닥글 및 웹사이트에서 일반적으로 사용되는 기타 요소를 포함한 모든 HTML이 포함됩니다.

또는 Cheerio를 사용하여 특정 요소를 선택할 수도 있습니다.

npm install cheerio
import * as cheerio from "cheerio";

const html = await fetch(
  "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js"
).then((res) => res.text());

const $ = cheerio.load(html);

console.log($("h1").text(), "\n");
console.log($("section#blog-content > div:first-child").text());

제목과 기사 텍스트가 생성됩니다. 그러나 이 접근 방식은 HTML 구조를 아는 것에 의존하므로 항상 가능한 것은 아닙니다.

더 나은 접근 방식은 Readability.js 및 jsdom을 설치하는 것입니다.

npm install @mozilla/readability jsdom

Readability.js는 브라우저 환경 내에서 작동하므로 Node.js에서 이를 시뮬레이션하려면 jsdom이 필요합니다. 로드된 HTML을 문서로 변환하고 Readability.js를 사용하여 콘텐츠를 구문 분석할 수 있습니다.

import { Readability } from "@mozilla/readability";
import { JSDOM } from "jsdom";

const url = "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js";
const html = await fetch(url).then((res) => res.text());

const doc = new JSDOM(html, { url });
const reader = new Readability(doc.window.document);
const article = reader.parse();

console.log(article);

article 객체에는 다양한 구문 분석 요소가 포함되어 있습니다.

Clean up HTML Content for Retrieval-Augmented Generation with Readability.js

여기에는 제목, 저자, 발췌문, 출판 시간, HTML(content) 및 일반 텍스트(textContent)가 모두 포함됩니다. textContent은 청킹, 임베딩 및 저장이 가능한 반면 content은 추가 처리를 위해 링크와 이미지를 유지합니다.

isProbablyReaderable 함수는 문서가 Readability.js에 적합한지 결정하는 데 도움이 됩니다.

const html = await fetch(
  "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js"
).then((res) => res.text());
console.log(html);

부적합한 페이지는 검토를 위해 신고해야 합니다.

LangChain.js와 가독성 통합

Readability.js는 LangChain.js와 완벽하게 통합됩니다. 다음 예에서는 LangChain.js를 사용하여 페이지를 로드하고, MozillaReadabilityTransformer로 콘텐츠를 추출하고, RecursiveCharacterTextSplitter로 텍스트를 분할하고, OpenAI로 임베딩을 생성하고, Astra DB에 데이터를 저장합니다.

필수 종속성:

npm install cheerio

환경 변수로 Astra DB 자격 증명(ASTRA_DB_APPLICATION_TOKEN, ASTRA_DB_API_ENDPOINT)과 OpenAI API 키(OPENAI_API_KEY)가 필요합니다.

필요한 모듈 가져오기:

import * as cheerio from "cheerio";

const html = await fetch(
  "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js"
).then((res) => res.text());

const $ = cheerio.load(html);

console.log($("h1").text(), "\n");
console.log($("section#blog-content > div:first-child").text());

구성요소 초기화:

npm install @mozilla/readability jsdom

문서 로드, 변환, 분할, 포함 및 저장:

import { Readability } from "@mozilla/readability";
import { JSDOM } from "jsdom";

const url = "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js";
const html = await fetch(url).then((res) => res.text());

const doc = new JSDOM(html, { url });
const reader = new Readability(doc.window.document);
const article = reader.parse();

console.log(article);

Readability.js로 향상된 웹 스크래핑 정확도

Firefox의 리더 모드를 지원하는 강력한 라이브러리인 Readability.js는 웹 페이지에서 관련 데이터를 효율적으로 추출하여 RAG 데이터 품질을 향상시킵니다. 직접 사용하거나 LangChain.js의 MozillaReadabilityTransformer.

을 통해 사용할 수 있습니다.

이것은 수집 파이프라인의 초기 단계에 불과합니다. 청킹, 임베딩 및 Astra DB 스토리지는 RAG 애플리케이션 구축의 후속 단계입니다.

RAG 애플리케이션에서 웹 콘텐츠를 정리하기 위해 다른 방법을 사용하시나요? 당신의 기술을 공유하세요!

위 내용은 Readability.js를 사용하여 검색 증강 생성을 위한 HTML 콘텐츠 정리의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
JavaScript로 문자열 문자를 교체하십시오JavaScript로 문자열 문자를 교체하십시오Mar 11, 2025 am 12:07 AM

JavaScript 문자열 교체 방법 및 FAQ에 대한 자세한 설명 이 기사는 JavaScript에서 문자열 문자를 대체하는 두 가지 방법 인 내부 JavaScript 코드와 웹 페이지의 내부 HTML을 탐색합니다. JavaScript 코드 내부의 문자열을 교체하십시오 가장 직접적인 방법은 대체 () 메소드를 사용하는 것입니다. str = str.replace ( "find", "replace"); 이 메소드는 첫 번째 일치 만 대체합니다. 모든 경기를 교체하려면 정규 표현식을 사용하고 전역 플래그 g를 추가하십시오. str = str.replace (/fi

자신의 Ajax 웹 응용 프로그램을 구축하십시오자신의 Ajax 웹 응용 프로그램을 구축하십시오Mar 09, 2025 am 12:11 AM

그래서 여기 당신은 Ajax라는이 일에 대해 배울 준비가되어 있습니다. 그러나 정확히 무엇입니까? Ajax라는 용어는 역동적이고 대화식 웹 컨텐츠를 만드는 데 사용되는 느슨한 기술 그룹을 나타냅니다. 원래 Jesse J에 의해 만들어진 Ajax라는 용어

10 JQuery Fun 및 Games 플러그인10 JQuery Fun 및 Games 플러그인Mar 08, 2025 am 12:42 AM

10 재미있는 jQuery 게임 플러그인 웹 사이트를보다 매력적으로 만들고 사용자 끈적함을 향상시킵니다! Flash는 여전히 캐주얼 웹 게임을 개발하기위한 최고의 소프트웨어이지만 JQuery는 놀라운 효과를 만들 수 있으며 Pure Action Flash 게임과 비교할 수는 없지만 경우에 따라 브라우저에서 예기치 않은 재미를 가질 수 있습니다. jQuery tic 발가락 게임 게임 프로그래밍의 "Hello World"에는 이제 jQuery 버전이 있습니다. 소스 코드 jQuery Crazy Word Composition 게임 이것은 반은 반은 게임이며, 단어의 맥락을 알지 못해 이상한 결과를 얻을 수 있습니다. 소스 코드 jQuery 광산 청소 게임

내 자신의 JavaScript 라이브러리를 어떻게 작성하고 게시합니까?내 자신의 JavaScript 라이브러리를 어떻게 작성하고 게시합니까?Mar 18, 2025 pm 03:12 PM

기사는 JavaScript 라이브러리 작성, 게시 및 유지 관리, 계획, 개발, 테스트, 문서 및 홍보 전략에 중점을 둡니다.

jQuery 시차 자습서 - 애니메이션 헤더 배경jQuery 시차 자습서 - 애니메이션 헤더 배경Mar 08, 2025 am 12:39 AM

이 튜토리얼은 jQuery를 사용하여 매혹적인 시차 배경 효과를 만드는 방법을 보여줍니다. 우리는 멋진 시각적 깊이를 만드는 계층화 된 이미지가있는 헤더 배너를 만들 것입니다. 업데이트 된 플러그인은 jQuery 1.6.4 이상에서 작동합니다. 다운로드

Matter.js : 소개를 시작합니다Matter.js : 소개를 시작합니다Mar 08, 2025 am 12:53 AM

Matter.js는 JavaScript로 작성된 2D 강성 신체 물리 엔진입니다. 이 라이브러리를 사용하면 브라우저에서 2D 물리학을 쉽게 시뮬레이션 할 수 있습니다. 그것은 단단한 몸체를 생성하고 질량, 면적 또는 밀도와 같은 물리적 특성을 할당하는 능력과 같은 많은 기능을 제공합니다. 중력 마찰과 같은 다양한 유형의 충돌 및 힘을 시뮬레이션 할 수도 있습니다. Matter.js는 모든 주류 브라우저를 지원합니다. 또한, 터치를 감지하고 반응이 좋기 때문에 모바일 장치에 적합합니다. 이러한 모든 기능을 사용하면 엔진 사용 방법을 배울 수있는 시간이 필요합니다. 이는 물리 기반 2D 게임 또는 시뮬레이션을 쉽게 만들 수 있습니다. 이 튜토리얼에서는 설치 및 사용을 포함한이 라이브러리의 기본 사항을 다루고

jQuery 및 Ajax를 사용한 자동 새로 고침 DIV 컨텐츠jQuery 및 Ajax를 사용한 자동 새로 고침 DIV 컨텐츠Mar 08, 2025 am 12:58 AM

이 기사에서는 jQuery 및 Ajax를 사용하여 5 초마다 DIV의 컨텐츠를 자동으로 새로 고치는 방법을 보여줍니다. 이 예제는 RSS 피드의 최신 블로그 게시물을 마지막 새로 고침 타임 스탬프와 함께 가져오고 표시합니다. 로딩 이미지는 선택 사항입니다

브라우저에서 성능을 위해 JavaScript 코드를 최적화하려면 어떻게해야합니까?브라우저에서 성능을 위해 JavaScript 코드를 최적화하려면 어떻게해야합니까?Mar 18, 2025 pm 03:14 PM

이 기사는 브라우저에서 JavaScript 성능을 최적화하기위한 전략에 대해 설명하고 실행 시간을 줄이고 페이지로드 속도에 미치는 영향을 최소화하는 데 중점을 둡니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

PhpStorm 맥 버전

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

mPDF

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.