収集モジュール

一般的なモジュール操作

イラスト:

記事収集機能は、プログラムを通じて対象のWebページのコンテンツをリモートから取得し、ローカルルールを解析・処理した上でサーバーのデータベースに保存する機能です。

記事収集システムは、従来の収集モデルとプロセスを覆し、収集ルールが収集インターフェイスから分離され、ルール設定がより簡単になり、基本的な技術知識を持つ担当者のみが関連ルールを設定できます。編集者は細かい技術ルールを理解する必要がなく、収集したい記事のリストを選択するだけで、記事を公開するのと同じように簡単にデータ収集作業を完了できます。

1. 収集プロセス

簡単に言えば、次の 3 つのステップがあります:

1. 収集ポイントを追加し、収集ルールを入力します。

2. URL とコンテンツを収集する

# 3. 指定された列

にコンテンツを投稿します。

新浪ニュースのコレクション (http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml) を例として、詳細なプロセスを紹介します。

説明例:

目標: 新浪ニュースを V9 システムの国際ニュース欄に収集します。

ターゲット URL: http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml

1. 収集ポイントを追加します

1.1 URL ルールの設定

コレクションポイントを追加するには-URLルール構成図1

収集対象 URL のソースコードを確認し、収集対象 URL の開始点と終了点を確認します (

この 2 点はソースコード全体で一意である必要があります )。コレクション URL の検索範囲をさらに絞り込みます。

コレクションポイントを追加するには-URLルール構成図2

以下の図に示すように、URL 収集ルールが正しいかどうかをテストします。

1.2 コンテンツルールの設定

ここでのコンテンツルールは複雑に見えますが、実際は非常に単純です。説明を簡単にするために、タイトルとコンテンツの 2 つのフィールドのみを収集します。収集コンテンツ URL:
http://news.sina.com.cn/w/2010-12-01/135121565455.shtml コンテンツ収集ルール。この URL を開いてください。ページは次のとおりです。空白右クリック -> ソースファイルを表示して、タイトルとコンテンツの開始境界を検索します。

タイトルコレクションの構成:

Web ページ <title></title> からタイトルを取得し、不要な文字を削除します。以下に示すように

コンテンツコレクションの構成:

新浪ニュースの最終ページでは、ニュースコンテンツは   の間に含まれており、これら 2 つのノードはページのソースコード全体に含まれています。独自性がある。したがって、これをコンテンツを取得するためのルールとして使用できます。そしてコンテンツをフィルタリングします。以下に示すように