Node.js を使用して情報クローラーを実装する方法 (詳細なチュートリアル)-jsチュートリアル-php.cn

ホームページ

ウェブフロントエンド

jsチュートリアル

Node.js を使用して情報クローラーを実装する方法 (詳細なチュートリアル)

亚连

Jun 13, 2018 pm 02:15 PM

この記事では、Node.js を使用して情報クローラーを開発するプロセスを主に紹介します。クローラーのプロセスは、ターゲット Web サイトの HTML をローカルにダウンロードし、データを抽出することとして要約できます。具体的な内容についてはこちらの記事を参照してください

最近のプロジェクトはNode.jsで書かれているため、いくつかの情報が必要です

プロジェクトアドレス: github.com/ mrtanweijie… 、このプロジェクトは、Readhub、Open Source China、Developer Toutiao、および 36Kr の情報コンテンツをクロールします。クローラーは 1 日に 1 回実行されるため、現時点では複数のページを処理しません。クローラーのプロセスは、ターゲット Web サイトの HTML をローカルにダウンロードしてからデータを抽出することとして要約できます。

1. ダウンロードページNode.jsには多くのhttpリクエストライブラリがあり、ここではリクエストが使用されており、メインコードは次のとおりです:

requestDownloadHTML () {
 const options = {
  url: this.url,
  headers: {
  &#39;User-Agent&#39;: this.randomUserAgent()
  }
 }
 return new Promise((resolve, reject) => {
  request(options, (err, response, body) => {
  if (!err && response.statusCode === 200) {
   return resolve(body)
  } else {
   return reject(err)
  }
  })
 })
 }

パッケージ化にはPromiseを使用し、async/awaitが使用できるようにします後で。多くの Web サイトはクライアントでレンダリングされるため、ダウンロードされたページには必ずしも必要な HTML コンテンツが含まれるとは限りません。Google のパペッティアを使用して、クライアントでレンダリングされた Web サイトのページをダウンロードできます。ご存知のとおり、npm i を使用すると、Chrome カーネルをダウンロードする必要があるため、puppeteer のインストールに失敗する可能性があります。もう少し試してみてください:)

puppeteerDownloadHTML () {
 return new Promise(async (resolve, reject) => {
  try {
  const browser = await puppeteer.launch({ headless: true })
  const page = await browser.newPage()
  await page.goto(this.url)
  const bodyHandle = await page.$(&#39;body&#39;)
  const bodyHTML = await page.evaluate(body => body.innerHTML, bodyHandle)
  return resolve(bodyHTML)
  } catch (err) {
  console.log(err)
  return reject(err)
  }
 })
 }

もちろん、クライアントのインターフェイスリクエストメソッドを直接使用するのが最善です。 -レンダリングされたページなので、その後の HTML 解析は必要ありません。単純なカプセル化を行うだけで、次のように使用できます。 #Funny:)

await new Downloader(&#39;http://36kr.com/newsflashes&#39;, DOWNLOADER.puppeteer).downloadHTML()

2. HTML コンテンツの抽出もちろん、アーティファクト Cheerio は HTML コンテンツを抽出するために使用され、cheerio は jQuery と同じインターフェイスを公開しており、非常に簡単に使用できます。ブラウザでページ F12 を開き、抽出されたページ要素ノードを表示し、必要に応じてコンテンツを抽出します

readHubExtract () {
 let nodeList = this.$(&#39;#itemList&#39;).find(&#39;.enableVisited&#39;)
 nodeList.each((i, e) => {
  let a = this.$(e).find(&#39;a&#39;)
  this.extractData.push(
  this.extractDataFactory(
   a.attr(&#39;href&#39;),
   a.text(),
   &#39;&#39;,
   SOURCECODE.Readhub
  )
  )
 })
 return this.extractData
 }

3. スケジュールされたタスク

cron 每天跑一跑 
function job () {
 let cronJob = new cron.CronJob({
 cronTime: cronConfig.cronTime,
 onTick: () => {
  spider()
 },
 start: false
 })
 cronJob.start()
}

4. データの永続性理論データ永続性クローラーの問題の範囲内ではないはずです。 mongoose を使用してモデルを作成します

import mongoose from &#39;mongoose&#39;
const Schema = mongoose.Schema
const NewsSchema = new Schema(
 {
 title: { type: &#39;String&#39;, required: true },
 url: { type: &#39;String&#39;, required: true },
 summary: String,
 recommend: { type: Boolean, default: false },
 source: { type: Number, required: true, default: 0 },
 status: { type: Number, required: true, default: 0 },
 createdTime: { type: Date, default: Date.now }
 },
 {
 collection: &#39;news&#39;
 }
)
export default mongoose.model(&#39;news&#39;, NewsSchema)

基本操作

import { OBJ_STATUS } from &#39;../../Constants&#39;
class BaseService {
 constructor (ObjModel) {
 this.ObjModel = ObjModel
 }

 saveObject (objData) {
 return new Promise((resolve, reject) => {
  this.ObjModel(objData).save((err, result) => {
  if (err) {
   return reject(err)
  }
  return resolve(result)
  })
 })
 }
}
export default BaseService

情報

import BaseService from &#39;./BaseService&#39;
import News from &#39;../models/News&#39;
class NewsService extends BaseService {}
export default new NewsService(News)

データを保存してください

await newsService.batchSave(newsListTem)

詳細については、Github にアクセスしてプロジェクトをクローンして確認してください。それ。

まとめ

以上、皆様の参考になれば幸いです。

react を使用して d3 強制有向グラフを構築する方法 (詳細なチュートリアル)

nodejs を使用してインスタントメッセージングを実装する方法

axios での Vue.use についての質問

以上がNode.js を使用して情報クローラーを実装する方法 (詳細なチュートリアル)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

JavaScriptとWeb：コア機能とユースケースApr 18, 2025 am 12:19 AM

Web開発におけるJavaScriptの主な用途には、クライアントの相互作用、フォーム検証、非同期通信が含まれます。 1）DOM操作による動的なコンテンツの更新とユーザーインタラクション。 2）ユーザーエクスペリエンスを改善するためにデータを提出する前に、クライアントの検証が実行されます。 3）サーバーとのリフレッシュレス通信は、AJAXテクノロジーを通じて達成されます。

JavaScriptエンジンの理解：実装の詳細Apr 17, 2025 am 12:05 AM

JavaScriptエンジンが内部的にどのように機能するかを理解することは、開発者にとってより効率的なコードの作成とパフォーマンスのボトルネックと最適化戦略の理解に役立つためです。 1）エンジンのワークフローには、3つの段階が含まれます。解析、コンパイル、実行。 2）実行プロセス中、エンジンはインラインキャッシュや非表示クラスなどの動的最適化を実行します。 3）ベストプラクティスには、グローバル変数の避け、ループの最適化、constとletsの使用、閉鎖の過度の使用の回避が含まれます。

Python vs. JavaScript：学習曲線と使いやすさApr 16, 2025 am 12:12 AM

Pythonは、スムーズな学習曲線と簡潔な構文を備えた初心者により適しています。 JavaScriptは、急な学習曲線と柔軟な構文を備えたフロントエンド開発に適しています。 1。Python構文は直感的で、データサイエンスやバックエンド開発に適しています。 2。JavaScriptは柔軟で、フロントエンドおよびサーバー側のプログラミングで広く使用されています。

Python vs. JavaScript：コミュニティ、ライブラリ、リソースApr 15, 2025 am 12:16 AM

PythonとJavaScriptには、コミュニティ、ライブラリ、リソースの観点から、独自の利点と短所があります。 1）Pythonコミュニティはフレンドリーで初心者に適していますが、フロントエンドの開発リソースはJavaScriptほど豊富ではありません。 2）Pythonはデータサイエンスおよび機械学習ライブラリで強力ですが、JavaScriptはフロントエンド開発ライブラリとフレームワークで優れています。 3）どちらも豊富な学習リソースを持っていますが、Pythonは公式文書から始めるのに適していますが、JavaScriptはMDNWebDocsにより優れています。選択は、プロジェクトのニーズと個人的な関心に基づいている必要があります。

C/CからJavaScriptへ：すべてがどのように機能するかApr 14, 2025 am 12:05 AM

C/CからJavaScriptへのシフトには、動的なタイピング、ゴミ収集、非同期プログラミングへの適応が必要です。 1）C/Cは、手動メモリ管理を必要とする静的に型付けられた言語であり、JavaScriptは動的に型付けされ、ごみ収集が自動的に処理されます。 2）C/Cはマシンコードにコンパイルする必要がありますが、JavaScriptは解釈言語です。 3）JavaScriptは、閉鎖、プロトタイプチェーン、約束などの概念を導入します。これにより、柔軟性と非同期プログラミング機能が向上します。

JavaScriptエンジン：実装の比較Apr 13, 2025 am 12:05 AM

さまざまなJavaScriptエンジンは、各エンジンの実装原則と最適化戦略が異なるため、JavaScriptコードを解析および実行するときに異なる効果をもたらします。 1。語彙分析：ソースコードを語彙ユニットに変換します。 2。文法分析：抽象的な構文ツリーを生成します。 3。最適化とコンパイル：JITコンパイラを介してマシンコードを生成します。 4。実行：マシンコードを実行します。 V8エンジンはインスタントコンピレーションと非表示クラスを通じて最適化され、Spidermonkeyはタイプ推論システムを使用して、同じコードで異なるパフォーマンスパフォーマンスをもたらします。

ブラウザを超えて：現実世界のJavaScriptApr 12, 2025 am 12:06 AM

現実世界におけるJavaScriptのアプリケーションには、サーバー側のプログラミング、モバイルアプリケーション開発、モノのインターネット制御が含まれます。 2。モバイルアプリケーションの開発は、ReactNativeを通じて実行され、クロスプラットフォームの展開をサポートします。 3.ハードウェアの相互作用に適したJohnny-Fiveライブラリを介したIoTデバイス制御に使用されます。

next.jsを使用してマルチテナントSaaSアプリケーションを構築する（バックエンド統合）Apr 11, 2025 am 08:23 AM

私はあなたの日常的な技術ツールを使用して機能的なマルチテナントSaaSアプリケーション（EDTECHアプリ）を作成しましたが、あなたは同じことをすることができます。まず、マルチテナントSaaSアプリケーションとは何ですか？マルチテナントSaaSアプリケーションを使用すると、Singの複数の顧客にサービスを提供できます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

WebStorm Mac版

便利なJavaScript開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、