首頁 >web前端 >js教程 >Wikipedia學院獎列表的JavaScript刮刀。

Wikipedia學院獎列表的JavaScript刮刀。

Susan Sarandon
Susan Sarandon原創
2025-01-24 16:39:12981瀏覽

>本教學將使用JavaScript的Cheerio圖書館從Wikipedia中提取獎項獎的電影,並將其儲存到CSV檔案中。 >

首先,安裝所需的軟體包:

<code class="language-bash">npm install cheerio axios</code>
wikipedia頁面URL是:

<code class="language-javascript">const url = 'https://en.wikipedia.org/wiki/List_of_Academy_Award%E2%80%93winning_films';</code>
程式碼使用

取得頁面的HTML,然後使用Cheerio來解析:> axios

腳本導覽DOM,從表格單元格擷取資料:>
<code class="language-javascript">const { data: html } = await axios.get(url);
const $ = cheerio.load(html);

const theadData = [];
const tableData = [];</code>

>最後,擷取的資料是格式的,並使用

>將半olons儲存到CSV檔案中,將半olon作為定界符:>
<code class="language-javascript">$('tbody').each((i, column) => {
  const columnData = [];
  $(column).find('th').each((j, cell) => {
    columnData.push($(cell).text().replace('\n', ''));
  });
  theadData.push(columnData);
});

tableData.push(theadData[0]);

$('table tr').each((i, row) => {
  const rowData = [];
  $(row).find('td').each((j, cell) => {
    rowData.push($(cell).text().trim());
  });
  if (rowData.length) tableData.push(rowData);
});</code>

>使用:fs.writeFileSync運行腳本

<code class="language-javascript">const csvContent = tableData.map((row) => row.join(';')).join('\n');
fs.writeFileSync('academy_awards.csv', csvContent, 'utf-8');</code>
產生的

檔案包含刮擦資料。

>
<code class="language-bash">node scraper.js</code>

academy_awards.csv

>本教學建立在使用GO和Python的先前刮擦教學的基礎上。 如果有幫助,請考慮支持作者:

A JavaScript scraper for the Wikipedia Academy Award List.

以上是Wikipedia學院獎列表的JavaScript刮刀。的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn