


Mengikis web ialah kaedah biasa untuk mengumpul kandungan untuk aplikasi penjanaan dipertingkatkan semula (RAG) anda. Walau bagaimanapun, menghuraikan kandungan halaman web boleh mencabar.
Pustaka Readability.js sumber terbuka Mozilla menawarkan penyelesaian yang mudah untuk mengekstrak bahagian penting halaman web sahaja. Mari kita terokai penyepaduannya ke dalam saluran paip pengingesan data untuk aplikasi RAG.
Mengekstrak Data Tidak Berstruktur daripada Halaman Web
Halaman web ialah sumber yang kaya dengan data tidak berstruktur, sesuai untuk aplikasi RAG. Walau bagaimanapun, halaman web selalunya mengandungi maklumat yang tidak berkaitan seperti pengepala, bar sisi dan pengaki. Walaupun berguna untuk menyemak imbas, kandungan tambahan ini menjejaskan subjek utama halaman.
Untuk data RAG yang optimum, kandungan yang tidak berkaitan mesti dialih keluar. Walaupun alat seperti Cheerio boleh menghuraikan HTML berdasarkan struktur tapak yang diketahui, pendekatan ini tidak cekap untuk mengikis reka letak laman web yang pelbagai. Kaedah yang mantap diperlukan untuk mengekstrak kandungan yang berkaitan sahaja.
Memanfaatkan Fungsi Paparan Pembaca
Kebanyakan penyemak imbas menyertakan paparan pembaca yang mengalih keluar semua kecuali tajuk dan kandungan artikel. Imej berikut menggambarkan perbezaan antara penyemakan imbas standard dan mod pembaca yang digunakan pada catatan blog DataStax:
Mozilla menyediakan Readability.js, perpustakaan di sebalik mod pembaca Firefox, sebagai modul sumber terbuka kendiri. Ini membolehkan kami menyepadukan Readability.js ke dalam saluran paip data untuk mengalih keluar kandungan yang tidak berkaitan dan menambah baik hasil mengikis.
Mengikis Data dengan Node.js dan Readability.js
Mari kita gambarkan mengikis kandungan artikel daripada catatan blog sebelumnya tentang membuat pembenaman vektor dalam Node.js. Kod JavaScript berikut mendapatkan semula HTML halaman:
const html = await fetch( "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js" ).then((res) => res.text()); console.log(html);
Ini termasuk semua HTML, termasuk navigasi, pengaki dan elemen lain yang biasa di tapak web.
Sebagai alternatif, anda boleh menggunakan Cheerio untuk memilih elemen tertentu:
npm install cheerio
import * as cheerio from "cheerio"; const html = await fetch( "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js" ).then((res) => res.text()); const $ = cheerio.load(html); console.log($("h1").text(), "\n"); console.log($("section#blog-content > div:first-child").text());
Ini menghasilkan tajuk dan teks artikel. Walau bagaimanapun, pendekatan ini bergantung pada mengetahui struktur HTML, yang tidak selalunya boleh dilaksanakan.
Pendekatan yang lebih baik melibatkan pemasangan Readability.js dan jsdom:
npm install @mozilla/readability jsdom
Kebolehbacaan.js beroperasi dalam persekitaran penyemak imbas, memerlukan jsdom untuk mensimulasikan ini dalam Node.js. Kami boleh menukar HTML yang dimuatkan kepada dokumen dan menggunakan Readability.js untuk menghuraikan kandungan:
import { Readability } from "@mozilla/readability"; import { JSDOM } from "jsdom"; const url = "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js"; const html = await fetch(url).then((res) => res.text()); const doc = new JSDOM(html, { url }); const reader = new Readability(doc.window.document); const article = reader.parse(); console.log(article);
Objek article
mengandungi pelbagai elemen yang dihuraikan:
Ini termasuk tajuk, pengarang, petikan, masa penerbitan dan kedua-dua HTML (content
) dan teks biasa (textContent
). textContent
sedia untuk dipotong, dibenamkan dan penyimpanan, manakala content
mengekalkan pautan dan imej untuk pemprosesan selanjutnya.
Fungsi isProbablyReaderable
membantu menentukan sama ada dokumen itu sesuai untuk Kebolehbacaan.js:
const html = await fetch( "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js" ).then((res) => res.text()); console.log(html);
Halaman yang tidak sesuai harus dibenderakan untuk semakan.
Mengintegrasikan Kebolehbacaan dengan LangChain.js
Kebolehbacaan.js disepadukan dengan lancar dengan LangChain.js. Contoh berikut menggunakan LangChain.js untuk memuatkan halaman, mengekstrak kandungan dengan MozillaReadabilityTransformer
, memisahkan teks dengan RecursiveCharacterTextSplitter
, mencipta benam dengan OpenAI dan menyimpan data dalam Astra DB.
Kebergantungan yang diperlukan:
npm install cheerio
Anda memerlukan bukti kelayakan Astra DB ( ASTRA_DB_APPLICATION_TOKEN
, ASTRA_DB_API_ENDPOINT
) dan kunci API OpenAI (OPENAI_API_KEY
) sebagai pembolehubah persekitaran.
Import modul yang diperlukan:
import * as cheerio from "cheerio"; const html = await fetch( "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js" ).then((res) => res.text()); const $ = cheerio.load(html); console.log($("h1").text(), "\n"); console.log($("section#blog-content > div:first-child").text());
Memulakan komponen:
npm install @mozilla/readability jsdom
Muat, ubah, belah, benamkan dan simpan dokumen:
import { Readability } from "@mozilla/readability"; import { JSDOM } from "jsdom"; const url = "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js"; const html = await fetch(url).then((res) => res.text()); const doc = new JSDOM(html, { url }); const reader = new Readability(doc.window.document); const article = reader.parse(); console.log(article);
Ketepatan Mengikis Web dipertingkat dengan Kebolehbacaan.js
Readability.js, perpustakaan teguh yang menjanakan mod pembaca Firefox, mengekstrak data yang berkaitan dengan cekap daripada halaman web, meningkatkan kualiti data RAG. Ia boleh digunakan secara terus atau melalui MozillaReadabilityTransformer
LangChain.js.
Ini hanyalah peringkat awal saluran paip pengingesan anda. Pecahan, pembenaman dan storan Astra DB ialah langkah seterusnya dalam membina aplikasi RAG anda.
Adakah anda menggunakan kaedah lain untuk membersihkan kandungan web dalam aplikasi RAG anda? Kongsi teknik anda!
Atas ialah kandungan terperinci Bersihkan Kandungan HTML untuk Penjanaan Pertambahan Pendapatan dengan Kebolehbacaan.js. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Penjelasan terperinci mengenai kaedah penggantian rentetan javascript dan Soalan Lazim Artikel ini akan meneroka dua cara untuk menggantikan watak rentetan dalam JavaScript: Kod JavaScript dalaman dan HTML dalaman untuk laman web. Ganti rentetan di dalam kod JavaScript Cara yang paling langsung ialah menggunakan kaedah pengganti (): str = str.replace ("cari", "ganti"); Kaedah ini hanya menggantikan perlawanan pertama. Untuk menggantikan semua perlawanan, gunakan ungkapan biasa dan tambahkan bendera global g: str = str.replace (/fi

Jadi di sini anda, bersedia untuk mempelajari semua perkara ini yang dipanggil Ajax. Tetapi, apa sebenarnya? Istilah Ajax merujuk kepada kumpulan teknologi longgar yang digunakan untuk membuat kandungan web yang dinamik dan interaktif. Istilah Ajax, yang asalnya dicipta oleh Jesse J

Artikel membincangkan membuat, menerbitkan, dan mengekalkan perpustakaan JavaScript, memberi tumpuan kepada perancangan, pembangunan, ujian, dokumentasi, dan strategi promosi.

Artikel ini membincangkan strategi untuk mengoptimumkan prestasi JavaScript dalam pelayar, memberi tumpuan kepada mengurangkan masa pelaksanaan dan meminimumkan kesan pada kelajuan beban halaman.

Artikel ini membincangkan debugging JavaScript yang berkesan menggunakan alat pemaju pelayar, memberi tumpuan kepada menetapkan titik putus, menggunakan konsol, dan menganalisis prestasi.

Artikel ini akan membimbing anda untuk membuat karusel gambar mudah menggunakan perpustakaan jQuery. Kami akan menggunakan perpustakaan BXSlider, yang dibina di atas jQuery dan menyediakan banyak pilihan konfigurasi untuk menubuhkan karusel. Pada masa kini, Gambar Carousel telah menjadi ciri yang mesti ada di laman web - satu gambar lebih baik daripada seribu perkataan! Selepas membuat keputusan untuk menggunakan karusel gambar, soalan seterusnya adalah bagaimana untuk menciptanya. Pertama, anda perlu mengumpul gambar-gambar resolusi tinggi yang berkualiti tinggi. Seterusnya, anda perlu membuat karusel gambar menggunakan HTML dan beberapa kod JavaScript. Terdapat banyak perpustakaan di web yang dapat membantu anda membuat karusel dengan cara yang berbeza. Kami akan menggunakan Perpustakaan BXSlider Sumber Terbuka. Perpustakaan BXSlider menyokong reka bentuk responsif, jadi karusel yang dibina dengan perpustakaan ini dapat disesuaikan dengan mana -mana

Bawa kesan filem matriks ke halaman anda! Ini adalah plugin jQuery yang sejuk berdasarkan filem terkenal "The Matrix". Plugin mensimulasikan kesan aksara hijau klasik dalam filem, dan hanya pilih gambar dan plugin akan mengubahnya menjadi gambar gaya matriks yang diisi dengan aksara angka. Datang dan cuba, sangat menarik! Bagaimana ia berfungsi Plugin memuat imej ke kanvas dan membaca nilai piksel dan warna: data = ctx.getimagedata (x, y, settings.grainsize, settings.grainsize) .data Plugin dengan bijak membaca kawasan segi empat tepat gambar dan menggunakan jQuery untuk mengira warna purata setiap kawasan. Kemudian, gunakan

Artikel ini menerangkan cara menggunakan peta sumber untuk debug JavaScript minifikasi dengan memetakannya kembali ke kod asal. Ia membincangkan membolehkan peta sumber, menetapkan titik putus, dan menggunakan alat seperti Chrome Devtools dan Webpack.


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Muat turun versi mac editor Atom
Editor sumber terbuka yang paling popular

Dreamweaver CS6
Alat pembangunan web visual

Dreamweaver Mac版
Alat pembangunan web visual

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

MinGW - GNU Minimalis untuk Windows
Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.