ホームページ >ウェブフロントエンド >htmlチュートリアル >Heritrix は html や htm_html/css_WEB-ITnose などの特定のページのみをクロールします。

Heritrix は html や htm_html/css_WEB-ITnose などの特定のページのみをクロールします。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBオリジナル: 2016-06-24 11:44:261066ブラウズ

Heritrix には 5 つのチェーンがあり、このチェーンは Extractor チェーンで処理が行われ、HTML ページのコンテンツを解析してさらにフィルタリングする役割を担うと言われています。しかし、現時点では、サフィックス名を判断して、html、htm、shtml、xshtml、およびその他のファイルをフィルタリングしたいだけです。そこで、Extractorで処理を行うとちょっと便利なので、PostProcessorchainで処理を行います。詳細な紹介は次のとおりです:

r FroniTierscheDuler はポストプロセッサーであり、その役割は、次のステップの処理 (ファイルの書き込み処理など) のために Extractor 内のリンクを Froniter に追加することです。

：具体的なメソッド:

1. org.archive.Crawler.PostProcessor の Frontierscheduler.java ファイルの下にある Frontierscheduler.java ファイルを見つけます。メソッド

3. 私の書き換えは次のとおりです。

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：css ノート-表示属性_html/css_WEB-ITnose次の記事：css ノート-表示属性_html/css_WEB-ITnose

続きを見る

Heritrix は html や htm_html/css_WEB-ITnose などの特定のページのみをクロールします。

関連記事