ホームページ  >  記事  >  バックエンド開発  >  収集された情報が不完全であることに関連する問題

収集された情報が不完全であることに関連する問題

WBOY
WBOYオリジナル
2016-06-13 13:35:411025ブラウズ

収集された情報が不完全である問題についてご協力ください
このウェブサイトを収集したいと考えています
http://www.tvmao.com/drama/MGxYWA==/episode/0

最初に始めたとき, 得ました 情報が完成しました

一定期間収集すると、一部の単語が抜けて半分の情報だけが収集されます。

(別の場所でIEで開いたところ、最初にテキストの半分が読み込まれ、しばらくするとテキストの半分が読み込まれました)
(ローカルブラウザで開いた場合) 、半分しかテキストが読み込まれていませんでした)
対処方法もお聞きしたいです。すべての情報を取得するために。
















------解決策--------------------
このウェブサイトは収集を防止するために処理されている可能性があります。同じ IP へのアクセスがあまりにも頻繁である場合、この IP に対して収集防止が有効になります。これは、最初は完全な収集が可能であるが、長期間後には不可能であると述べたこととも一致します。しかし、これは問題ありません。一部の Web サイトは一度に 1K バイトを出力するほど異常です。
------解決策---------

話し合う

そうです、徴収されないようにするにはどうすればよいですか?
引用:

同じ IP が頻繁にアクセスされると、この Web サイトが収集を防止する処理が行われている可能性があります。これも同様です。コンプリートは最初から完了できると言いましたが、長くは機能しない状況です。しかし、これは問題ありません。一部の Web サイトは非常に異常で、毎回 1K バイトを出力します

------解決策------------------
収集の防止:
1: ユーザーはログインして Web サイトのコンテンツにアクセスできます
2: スクリプト言語を使用してページングを実行します (ページングを非表示)
3: アンチホットリンク方式 (ページ接続を介してのみ表示を許可します)このサイトの例: Request.ServerVariables(“HTTP_REFERER“) )
4: すべての Flash、写真、または PDF を使用して Web サイトのコンテンツを表示します
5: Web サイトは異なるテンプレートをランダムに使用します
6: 動的を使用しますおよび不規則な HTML タグ
を同時に使用したい場合は、検索エンジンのクローラーとコレクターは非常にイライラするタスクです。検索エンジンの最初のステップはターゲット Web ページのコンテンツを収集することであり、これは同じ原理です。したがって、収集を阻止する多くの方法は、検索エンジンによる Web サイトへのアクセスを妨げます。上記の 10 の提案では 100% の収集を阻止することはできませんが、いくつかの方法を組み合わせて適用すると、すでにほとんどの収集が拒否されます。
声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。