ホームページ  >  に質問  >  本文

Python が文字化けしたリクエストを含む Web ページをクロールする

** 以前、査読者文書のデータをクロールしたことがありますが、その期間中に再度クローラーを実行したところ、Web ページのデータが取得できなかったことがわかりました。
検索したところ、リクエストのソースコードが見つかりませんでした。 Web ページが文字化けを返しました**

(返されたデータの一部を次のようにインターセプトします: <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta id="JLyKZlWgYjpTkAsEt9LnA " )

#Web サイトが Web ページのコンテンツを暗号化しているかどうかわかりません。この問題はどうすれば解決できますか?ありがとう!

プログラムのソース コードの一部をインターセプトします:

リーリー

しかし、返されるべきデータが review 要素で返されます。何が問題なのでしょうか?

プログラムが正常に実行されているときに返されるデータは次のとおりです:

phpcn_u1582phpcn_u15822675日前1205

全員に返信(4)返信します

  • 仅有的幸福

    仅有的幸福2017-06-22 11:53:56

    Ajax でロードされた結果ページ (ネットワーク内で json と同様のフィードバック結果が取得できない場合)。 PHANTOMJS を使用して読み込みをシミュレートするだけです。次に、クロールに一致します。

    返事
    0
  • 高洛峰

    高洛峰2017-06-22 11:53:56

    HTML オブジェクトで使用されているエンコーディングが間違っています。
    html.encoding = html.apparent_encoding という行を追加します。
    実際に取得したテキストに基づいてエンコーディングを推測し、再デコードします。

    返事
    0
  • 怪我咯

    怪我咯2017-06-22 11:53:56

    ドリルしていただける場合は、参考アドレスをお知らせします: http://www.qingpingshan.com/j...

    返事
    0
  • 学习ing

    学习ing2017-06-22 11:53:56

    html.contentを印刷

    返事
    0
  • キャンセル返事