収集モジュール



一般的なモジュール操作

#

イラスト:

記事収集機能は、プログラムを通じて対象のWebページのコンテンツをリモートから取得し、ローカルルールを解析・処理した上でサーバーのデータベースに保存する機能です。

記事収集システムは、従来の収集モデルとプロセスを覆し、収集ルールが収集インターフェイスから分離され、ルール設定がより簡単になり、基本的な技術知識を持つ担当者のみが関連ルールを設定できます。編集者は細かい技術ルールを理解する必要がなく、収集したい記事のリストを選択するだけで、記事を公開するのと同じように簡単にデータ収集作業を完了できます。
1. 収集プロセス
簡単に言えば、次の 3 つのステップがあります:
1. 収集ポイントを追加し、収集ルールを入力します。
2. URL とコンテンツを収集する
# 3. 指定された列
にコンテンツを投稿します。
新浪ニュースのコレクション (http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml) を例として、詳細なプロセスを紹介します。
説明例:
目標: 新浪ニュースを V9 システムの国際ニュース欄に収集します。
ターゲット URL: http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml
1. 収集ポイントを追加します
1.1 URL ルールの設定
70.jpg
コレクションポイントを追加するには-URLルール構成図1
収集対象 URL のソース コードを確認し、収集対象 URL の開始点と終了点を確認します (
この 2 点はソース コード全体で一意である必要があります )。コレクション URL の検索範囲をさらに絞り込みます。
71.jpg
コレクションポイントを追加するには-URLルール構成図2
以下の図に示すように、URL 収集ルールが正しいかどうかをテストします。
72.jpg
1.2 コンテンツルールの設定
ここでのコンテンツ ルールは複雑に見えますが、実際は非常に単純です。説明を簡単にするために、タイトルとコンテンツの 2 つのフィールドのみを収集します。収集コンテンツ URL:
http://news.sina.com.cn/w/2010-12-01/135121565455.shtml コンテンツ収集ルール。この URL を開いてください。ページは次のとおりです。空白 右クリック -> ソースファイルを表示して、タイトルとコンテンツの開始境界を検索します。
タイトル コレクションの構成:
Web ページ <title></title> からタイトルを取得し、不要な文字を削除します。以下に示すように
73.jpg
コンテンツ コレクションの構成:
新浪ニュースの最終ページでは、ニュース コンテンツは <!-- text content begin --> <!-- text content end --> の間に含まれており、これら 2 つのノードはページのソース コード全体に含まれています。独自性がある。したがって、これをコンテンツを取得するためのルールとして使用できます。そしてコンテンツをフィルタリングします。以下に示すように
74.jpg
1.3 カスタムルール
1.4 高度な構成
画像をサーバーにダウンロードするかどうか、ウォーターマークを印刷するかどうかなどを設定できます。
75.jpg
2. URL の収集とコンテンツの収集
収集ルールを構成した後、URL を収集し、コンテンツを収集できるようになります。
76.jpg
3. 指定された列にコンテンツを公開します
77.jpg
78.jpg
インポートされた列
を選択します #####################################
収集したコンテンツとデータベースのフィールドの対応関係を設定します。データを保存のために送信します。この期間はしばらくお待ちください。完了すると自動的にリダイレクトされます。この時点で、簡単な収集プロセスは完了します。
他にもたくさんの機能があなたを待っています。


操作名説明
収集処理の詳細 なし
#その他の機能の説明なし