ホームページ  >  記事  >  ウェブフロントエンド  >  Heritrix は html や htm_html/css_WEB-ITnose などの特定のページのみをクロールします。

Heritrix は html や htm_html/css_WEB-ITnose などの特定のページのみをクロールします。

WBOY
WBOYオリジナル
2016-06-24 11:44:26954ブラウズ

Heritrix には 5 つのチェーンがあり、このチェーンは Extractor チェーンで処理が行われ、HTML ページのコンテンツを解析してさらにフィルタリングする役割を担うと言われています。しかし、現時点では、サフィックス名を判断して、html、htm、shtml、xshtml、およびその他のファイルをフィルタリングしたいだけです。そこで、Extractorで処理を行うとちょっと便利なので、PostProcessorchainで処理を行います。詳細な紹介は次のとおりです:

r FroniTierscheDuler はポストプロセッサーであり、その役割は、次のステップの処理 (ファイルの書き込み処理など) のために Extractor 内のリンクを Froniter に追加することです。

: 具体的なメソッド:

1. org.archive.Crawler.PostProcessor の Frontierscheduler.java ファイルの下にある Frontierscheduler.java ファイルを見つけます。メソッド

3. 私の書き換えは次のとおりです。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。