著者:php.cn 更新時間:2022-04-12 14:10:50
収集モジュール
一般的なモジュール操作
操作名 | 説明 |
収集処理の詳細 | なし |
#その他の機能の説明 | なし |
#イラスト:
記事収集機能は、プログラムを通じて対象のWebページのコンテンツをリモートから取得し、ローカルルールを解析・処理した上でサーバーのデータベースに保存する機能です。
記事収集システムは、従来の収集モデルとプロセスを覆し、収集ルールが収集インターフェイスから分離され、ルール設定がより簡単になり、基本的な技術知識を持つ担当者のみが関連ルールを設定できます。編集者は細かい技術ルールを理解する必要がなく、収集したい記事のリストを選択するだけで、記事を公開するのと同じように簡単にデータ収集作業を完了できます。
1. 収集プロセス
簡単に言えば、次の 3 つのステップがあります:
1. 収集ポイントを追加し、収集ルールを入力します。
2. URL とコンテンツを収集する
#
3. 指定された列 にコンテンツを投稿します。
新浪ニュースのコレクション (http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml) を例として、詳細なプロセスを紹介します。
説明例:
目標: 新浪ニュースを V9 システムの国際ニュース欄に収集します。
ターゲット URL: http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml
1. 収集ポイントを追加します
1.1 URL ルールの設定
コレクションポイントを追加するには-URLルール構成図1
収集対象 URL のソース コードを確認し、収集対象 URL の開始点と終了点を確認します (この 2 点はソース コード全体で一意である必要があります )。コレクション URL の検索範囲をさらに絞り込みます。
コレクションポイントを追加するには-URLルール構成図2
以下の図に示すように、URL 収集ルールが正しいかどうかをテストします。
1.2 コンテンツルールの設定
タイトル コレクションの構成:
Web ページ <title></title> からタイトルを取得し、不要な文字を削除します。以下に示すように
コンテンツ コレクションの構成:
新浪ニュースの最終ページでは、ニュース コンテンツは <!-- text content begin --> <!-- text content end --> の間に含まれており、これら 2 つのノードはページのソース コード全体に含まれています。独自性がある。したがって、これをコンテンツを取得するためのルールとして使用できます。そしてコンテンツをフィルタリングします。以下に示すように
1.3 カスタムルール
1.4 高度な構成
画像をサーバーにダウンロードするかどうか、ウォーターマークを印刷するかどうかなどを設定できます。
2. URL の収集とコンテンツの収集
収集ルールを構成した後、URL を収集し、コンテンツを収集できるようになります。
3. 指定された列にコンテンツを公開します
インポートされた列
を選択します
#####################################
収集したコンテンツとデータベースのフィールドの対応関係を設定します。データを保存のために送信します。この期間はしばらくお待ちください。完了すると自動的にリダイレクトされます。この時点で、簡単な収集プロセスは完了します。
他にもたくさんの機能があなたを待っています。