この記事では主にPython Webクローラーの文字化け問題の解決策を詳しく紹介していますので、興味のある方は参考にしてください。
クローラーの文字化けに関する問題はこれだけではありません。中国語の文字化けだけでなく、日本語、韓国語、ロシア語、チベット語などの一部の文字化けも含めたエンコード変換も解決方法は同じなので説明します。
Webクローラーで文字化けが発生する原因
ソースWebページのエンコード形式とクロール後のエンコード形式が一致していません。
ソース Web ページが gbk によってエンコードされたバイト ストリームであり、それを取得した後、プログラムはそれをエンコードしてストレージ ファイルに出力するために直接 utf-8 を使用します。つまり、ソースが文字化けすることは避けられません。 Webページをエンコードしてキャプチャすると、プログラムが直接処理されるエンコードが統一されていれば文字化けは発生しませんが、このとき文字エンコードが統一されていれば文字化けは発生しません
の区別に注意してください。
- はプログラムコードBによって直接使用され、
- コードCは統一変換文字用です。
-
コード文字化けの解決策
ソースWebページのコードAを決定します。コードAはWebページ内の3つの位置にあることがよくあります
2.meta charset
<script> if(document.charset){ alert(document.charset+"!!!!"); document.charset = 'GBK'; alert(document.charset); } else if(document.characterSet){ alert(document.characterSet+"????"); document.characterSet = 'GBK'; alert(document.characterSet); }</script>
ソース Web ページのエンコーディングを取得するときは、これら 3 つのデータ部分を前から後ろに順番に判断するだけでよく、優先順位についても同様です。
上記の 3 つの中にはエンコード情報はありません。通常、chardet などのサードパーティの Web ページエンコードインテリジェント識別ツールを使用して実行します
を使用します。 chardet は string/ を簡単に実装できます。HTML ページにはファイル エンコーディング検出用の charset タグがありますが、正しくない場合があります。そうすれば、シャルデは私たちを大いに助けてくれます。
chardet の例
import urllib rawdata = urllib.urlopen('http://www.php.cn/').read() import chardet chardet.detect(rawdata) {'confidence': 0.99, 'encoding': 'GB2312'}
独自のクローラーを開発する過程で中国語の文字エンコーディングに対処するにはどうすればよいですか?
import chardet a='abc' type(a) str chardet.detect(a) {'confidence': 1.0, 'encoding': 'ascii'} a ="我" chardet.detect(a) {'confidence': 0.73, 'encoding': 'windows-1252'} a.decode('windows-1252') u'\xe6\u02c6\u2018' chardet.detect(a.decode('windows-1252').encode('utf-8')) type(a.decode('windows-1252')) unicode type(a.decode('windows-1252').encode('utf-8')) str chardet.detect(a.decode('windows-1252').encode('utf-8')) {'confidence': 0.87625, 'encoding': 'utf-8'} a ="我是中国人" type(a) str {'confidence': 0.9690625, 'encoding': 'utf-8'} chardet.detect(a) # -*- coding:utf-8 -*- import chardet import urllib2 #抓取网页html html = urllib2.urlopen('http://www.jb51.net/').read() print html mychar=chardet.detect(html) print mychar bianma=mychar['encoding'] if bianma == 'utf-8' or bianma == 'UTF-8': html=html.decode('utf-8','ignore').encode('utf-8') else: html =html.decode('gb2312','ignore').encode('utf-8') print html print chardet.detect(html)
pyファイルのデフォルトはASCIIエンコーディングであり、中国語が表示される場合、 ASCII からシステムのデフォルトのエンコード変換に変換されます。「SyntaxError: Non-ASCII Character」というエラーが発生します。コード ファイルの最初の行にエンコード命令を追加する必要があります:
# -*- coding:utf-8 -*- print '中文'上記のように直接入力された文字列は、コード ファイルのエンコード 'utf-8' に従って処理されます
Unicode エンコードが
decode は任意の文字列が持つメソッドで、文字列を Unicode 形式に変換し、パラメータは文字列のエンコード形式を示しますソース文字列。
encode も任意の文字列に備わっているメソッドで、文字列をパラメータで指定された形式に変換します。
以上がこの記事の全内容です。皆さんの学習に役立つことを願っています。また、皆さんも PHP 中国語 Web サイトをサポートしていただければ幸いです。
Python Web クローラーの文字化けの問題を解決する方法に関するその他の関連記事については、PHP 中国語 Web サイトに注目してください。

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1)自動化:OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2)スクリプトの書き込み:Psutilライブラリを使用してシステムリソースを監視します。 3)タスク管理:スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

PythonはゲームとGUI開発に優れています。 1)ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2)GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

Pythonは、データサイエンス、Web開発、自動化タスクに適していますが、Cはシステムプログラミング、ゲーム開発、組み込みシステムに適しています。 Pythonは、そのシンプルさと強力なエコシステムで知られていますが、Cは高性能および基礎となる制御機能で知られています。

2時間以内にPythonの基本的なプログラミングの概念とスキルを学ぶことができます。 1.変数とデータ型、2。マスターコントロールフロー(条件付きステートメントとループ)、3。機能の定義と使用を理解する4。

Pythonは、Web開発、データサイエンス、機械学習、自動化、スクリプトの分野で広く使用されています。 1)Web開発では、DjangoおよびFlask Frameworksが開発プロセスを簡素化します。 2)データサイエンスと機械学習の分野では、Numpy、Pandas、Scikit-Learn、Tensorflowライブラリが強力なサポートを提供します。 3)自動化とスクリプトの観点から、Pythonは自動テストやシステム管理などのタスクに適しています。

2時間以内にPythonの基本を学ぶことができます。 1。変数とデータ型を学習します。2。ステートメントやループの場合などのマスター制御構造、3。関数の定義と使用を理解します。これらは、簡単なPythonプログラムの作成を開始するのに役立ちます。

10時間以内にコンピューター初心者プログラミングの基本を教える方法は?コンピューター初心者にプログラミングの知識を教えるのに10時間しかない場合、何を教えることを選びますか...


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター
