ホームページ > 記事 > ウェブフロントエンド > NodeJS_node.js を使用してクローラーを作成する全プロセス
今日は、 alsotang の クローラー チュートリアル を学び、CNode の簡単なクロールを見てみましょう。
プロジェクト craelr-demo を作成する
まず Express プロジェクトを作成し、当面はコンテンツを Web 上に表示する必要がないので、app.js ファイルのコンテンツをすべて削除します。もちろん、空のフォルダーで直接 npm install express
を実行して、必要な Express 機能を使用することもできます。
ターゲット Web サイト分析
図に示すように、これは CNode ホームページの div タグの一部であり、必要な情報を見つけるためにこの一連の ID とクラスを使用します。
スーパーエージェントを使用してソース データを取得します
superagent は、ajax API で使用される HTTP ライブラリです。その使用法は、それを通じて get リクエストを開始し、結果をコールバック関数に出力します。
cherio を使用して解析します
関数を呼び出して各オブジェクトを走査し、HTML DOM 要素を返します。 .each(function(index, element))
の出力結果はconsole.log($element.attr('title'));
广州 2014年12月06日 NodeParty 之 UC 场
です
のようなタイトルは console.log($element.attr('href'));
のような URL として出力されます。次に、NodeJS1 の url.resolve() 関数を使用して、完全な URL を完成させます。 /topic/545c395becbcb78265856eb2
eventproxy を使用して各トピックのコンテンツを同時にクロールします
このチュートリアルでは、深くネストされた (シリアル) メソッドとカウンター メソッドの例を示します。Eventproxy は、この問題を解決するためにイベント (並列) メソッドを使用します。すべてのクロールが完了すると、eventproxy はイベント メッセージを受信し、自動的に処理関数を呼び出します。
結果は以下の通りです
延長演習 (チャレンジ)
メッセージのユーザー名とポイントを取得します
記事ページのソースコードでコメントしたユーザーのクラス名を見つけます。クラス名は Reply_author です。 console.log $('.reply_author').get(0)
の最初の要素からわかるように、取得する必要があるものはすべてここにあります。
まず、記事をクロールして、必要なものをすべて一度に取得しましょう。
https://cnodejs.org/user/username
ユーザー情報ページの$('.big').text().trim()
にはポイント情報が表示されます。
cheerio の関数 .get(0) を使用して最初の要素を取得します。
これは 1 つの記事の単なるキャプチャであり、まだ 40 件の修正が必要です。