ホームページ > 記事 > ウェブフロントエンド > Heritrix は html や htm_html/css_WEB-ITnose などの特定のページのみをクロールします。
Heritrix には 5 つのチェーンがあり、このチェーンは Extractor チェーンで処理が行われ、HTML ページのコンテンツを解析してさらにフィルタリングする役割を担うと言われています。しかし、現時点では、サフィックス名を判断して、html、htm、shtml、xshtml、およびその他のファイルをフィルタリングしたいだけです。そこで、Extractorで処理を行うとちょっと便利なので、PostProcessorchainで処理を行います。詳細な紹介は次のとおりです:
r FroniTierscheDuler はポストプロセッサーであり、その役割は、次のステップの処理 (ファイルの書き込み処理など) のために Extractor 内のリンクを Froniter に追加することです。: 具体的なメソッド:
1. org.archive.Crawler.PostProcessor の Frontierscheduler.java ファイルの下にある Frontierscheduler.java ファイルを見つけます。メソッド
3. 私の書き換えは次のとおりです。