Heim >Web-Frontend >js-Tutorial >Ein JavaScript -Schaber für die Wikipedia Academy Award -Liste.

Ein JavaScript -Schaber für die Wikipedia Academy Award -Liste.

Susan Sarandon
Susan SarandonOriginal
2025-01-24 16:39:12981Durchsuche

Dieses Tutorial demonstriert Web Scraping mit der Cheerio-Bibliothek von JavaScript, um Oscar-prämierte Filme aus Wikipedia zu extrahieren und in einer CSV-Datei zu speichern.

Installieren Sie zunächst die erforderlichen Pakete:

<code class="language-bash">npm install cheerio axios</code>

Die URL der Wikipedia-Seite lautet:

<code class="language-javascript">const url = 'https://en.wikipedia.org/wiki/List_of_Academy_Award%E2%80%93winning_films';</code>

Der Code ruft den HTML-Code der Seite mit axios ab und analysiert ihn dann mit Cheerio:

<code class="language-javascript">const { data: html } = await axios.get(url);
const $ = cheerio.load(html);

const theadData = [];
const tableData = [];</code>

Das Skript navigiert durch das DOM und extrahiert Daten aus Tabellenzellen:

<code class="language-javascript">$('tbody').each((i, column) => {
  const columnData = [];
  $(column).find('th').each((j, cell) => {
    columnData.push($(cell).text().replace('\n', ''));
  });
  theadData.push(columnData);
});

tableData.push(theadData[0]);

$('table tr').each((i, row) => {
  const rowData = [];
  $(row).find('td').each((j, cell) => {
    rowData.push($(cell).text().trim());
  });
  if (rowData.length) tableData.push(rowData);
});</code>

Abschließend werden die extrahierten Daten formatiert und in einer CSV-Datei mit fs.writeFileSync gespeichert, mit Semikolons als Trennzeichen:

<code class="language-javascript">const csvContent = tableData.map((row) => row.join(';')).join('\n');
fs.writeFileSync('academy_awards.csv', csvContent, 'utf-8');</code>

Führen Sie das Skript aus mit:

<code class="language-bash">node scraper.js</code>

Die resultierende academy_awards.csv-Datei enthält die geschabten Daten.

A JavaScript scraper for the Wikipedia Academy Award List.

Dieses Tutorial baut auf früheren Scraping-Tutorials mit Go und Python auf. Erwägen Sie, den Autor zu unterstützen, wenn dies hilfreich war: A JavaScript scraper for the Wikipedia Academy Award List.

Das obige ist der detaillierte Inhalt vonEin JavaScript -Schaber für die Wikipedia Academy Award -Liste.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn