python - 爬取人民日报的评论员文章，碰到问题了，求解答。

Question

新手，在学习python爬虫，环境是python3.4，想爬取人民日报评论员文章，现在只怕去了一个网页，代码如下， {代码...} 网页上出错的源代码如下：&lt;span style="text-indent: 2em; display: block;" id="paper_nu...

天蓬老师 · Answer

元のコードのリンクは無効になっています。例として http://cpc.people.com.cn/n1/2016/0628/c404684-28502214.html の記事を使用しました。

作業コード:

リーリー

実行結果:

ここで発生するエンコードの問題は非常に一般的です。簡単に言えば、リクエストが Web ページのエンコード方式を誤って推測したことです。

リクエストが応答を取得した後、取得されたデータはヘッダーで指定されたエンコーディングに従ってデコードされます。応答ヘッダーでエンコーディングが指定されていない場合、デフォルトは ISO-8859-1 (エンコーディング属性) です。幸いなことに、リクエストはコンテンツに基づいてエンコードスキームを推測することもでき、推測された結果は、People's Daily のコメントの場合は GB2312 に保存されます。したがって、encoding =parent_encoding を指定するだけでテキストを取得し、正しいデコード結果を得ることができます。 (apparent_encoding が 100% 正しいとは保証されないことに注意してください)

リクエストドキュメントパーツは、応答コンテンツを参照できます。
エンコーディングの理解については、「ヒューマンコンピューターインタラクションのための文字エンコーディング」および「5 分でわかる Python 文字エンコーディングの打破」を参照してください。
リクエストのエンコード分析の詳細については、「Python + リクエストのエンコードの問題」を参照してください

コーディングには確かに落とし穴がありますが、一度理解すれば、それを避けるのは簡単です。

大家讲道理 · Answer

共通の要素を見つけて、正規表現を使用してデータをフィルタリングします

伊谢尔伦 · Answer

エラーの理由は、NoneType クラスに encode 属性がないことです。これは、soup.find_all() を使用して括弧内のパラメーターと一致しないことを意味します。まずタグを一致させてから、スタイルを一致させてください。うまくいかない場合は、正規表現

を使用してください。

python - 爬取人民日报的评论员文章，碰到问题了，求解答。

全員に返信(3)返信します