Python で中国語を使用する方法-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python で中国語を使用する方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 16, 2016 am 08:47 AM

python

まず Python のバージョンを見てみましょう:
>>> import sys
>>> sys.version
'2.5.1 (r251:54863, Apr 18 2007, 08:51:08) [ MSC v .1310 32 ビット (Intel)]'

(1)
メモ帳を使用してファイル ChineseTest.py を作成します。デフォルトの ANSI:
s = "中国語"
print s

テストして確認してください:
E:ProjectPythonTest>python ChineseTest.py
ファイル " ChineseTest.py"、行 1
SyntaxError: 非 ASCII 文字 'xd6'ファイル ChineseTest.py の 1 行目でエンコーディングが宣言されていません。詳細については、http://www.python.org/peps/pep-0263.html を参照してください。

ファイルエンコーディングを密かに UTF-8 に変更します。
E:ProjectPythonTest>python ChineseTest.py
ファイル " ChineseTest.py"、行 1
SyntaxError: ファイル ChineseTest.py の行 1 に非 ASCII 文字 'xe4' がありますが、エンコーディングが宣言されていません。詳細については http://www.python.org/peps/pep-0263.html

は役に立ちません。。。
URL が提供されるので、見てみましょう。簡単に閲覧した結果、ファイル内に非 ASCII 文字が含まれている場合は、1 行目または 2 行目にエンコーディングステートメントを指定する必要があることがわかりました。 ChineseTest.py ファイルのエンコードを ANSI に変更し、エンコードステートメントを追加します:
#coding=gbk
s = " Chinese"
print s

再試行:
E :ProjectPythonTest>python ChineseTest.py
中国語

通常:)
(2)
長さを見てください:
#coding =gbk
s = "中文"
print len(s)
結果: 4.ここの
は str 型なので、計算すると漢字 1 文字が英語 2 文字に相当するため、長さは 4 になります。
次のように書きます:
#coding=gbk
s = "中文"
s1 = u"中文"
s2 = unicode(s, "gbk") #パラメータを省略すると、 python デコードするデフォルトの ASCII
s3 = s.decode("gbk") #str を Unicode に変換することはデコードであり、Unicode 関数は同じ効果があります
print len(s1)
print len(s2)
print len(s3)
結果:
2
2
2
(3)
次に、ファイル処理を見てみましょう:
ファイル test.txt を作成します。ファイル形式は ANSI、内容は次のとおりです:
abc Chinese
Python を使用して
#coding=gbk
print open("Test.txt") を読み取ります。 read( )
結果: abc 中国語
ファイル形式を UTF-8 に変更します:
結果: abc涓枃
明らかに、ここではデコードが必要です:
#coding=gbk
import codecs
print open("Test.txt").read().decode("utf-8")
結果: abc Chinese
上記の test.txt の編集には Editplus を使用しましたが、 Windows に付属のメモ帳を使用して編集し、UTF-8 形式で保存すると、
実行時にエラーが発生します:
トレースバック (最新の呼び出しは最後):
ファイル " ChineseTest.py",行 3、
print open("Test.txt").read().decode("utf-8")
UnicodeEncodeError: 'gbk' コーデックは文字 u'ufeff' をエンコードできません位置 0: 不正なマルチバイトシーケンス

メモ帳などの一部のソフトウェアは、UTF-8 でエンコードされたファイルを保存するときに、ファイルの先頭に 3 つの非表示文字 (0xEF 0xBB 0xBF、または BOM) を挿入することが判明しました。ファイル。。
したがって、読み取り時にこれらの文字を自分で削除する必要があります。Python のコーデックモジュールは次の定数を定義します。
#coding=gbk
import codecs
data = open("Test.txt") .read ()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")
結果: abc 中国語

(4) 残った問題
後半では、unicode 関数と decode メソッドを使用して str を Unicode に変換します。これら 2 つの関数のパラメーターに「gbk」が使用されるのはなぜですか?
最初の反応は、コーディングステートメントで gbk (#coding=gbk) を使用しているということですが、これは本当にそうなのでしょうか?
ソースファイルを変更します:
#coding=utf-8
s = "中国語"
print unicode(s, "utf-8")
実行、エラーメッセージ:
トレースバック (最新の呼び出しは最後):
ファイル " ChineseTest.py"、行 3、
s = unicode(s, "utf-8")
UnicodeDecodeError: 'utf8' コーデックは可能です' t 位置 0-1 のバイトをデコードします: 無効なデータ
明らかに、以前の正常性が両側で gbk が使用されているためである場合、ここでは両側で utf-8 の一貫性を維持し、正常である必要があります。エラーが報告されます。
ここでも変換に gbk を使用する場合のさらなる例:
#coding=utf-8
s = "中国語"
print unicode(s, "gbk")
結果:中国語
Python での print の原理を大まかに説明している英語の資料を読みました。
Python が print ステートメントを実行すると、出力がオペレーティングシステムに (fwrite() などを使用して) 渡されるだけです。たとえば、Windows では、Windows コンソールサブシステムが結果を表示します。また、Windows を使用していて、他の場所で Python を実行している場合は、他のプログラムがその出力を画面に表示します。実際にデータを表示するのは Windows SSH クライアントです。Unix 上の xterm で Python を実行している場合、xterm と X サーバーが表示を処理します。

データを確実に出力するには、次のことを理解しておく必要があります。

簡単に言えば、Python の print は文字列をオペレーティングシステムに直接渡すため、オペレーティングシステムと一致する形式に str をデコードする必要があります。 Windows は CP936 (gbk とほぼ同じ) を使用するため、ここでは gbk を使用できます。
最終テスト:
#coding=utf-8
s = "中国語"
print unicode(s, "cp936")
結果: 中国語

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Python vs. C：曲線と使いやすさの学習Apr 19, 2025 am 12:20 AM

Pythonは学習と使用が簡単ですが、Cはより強力ですが複雑です。 1。Python構文は簡潔で初心者に適しています。動的なタイピングと自動メモリ管理により、使いやすくなりますが、ランタイムエラーを引き起こす可能性があります。 2.Cは、高性能アプリケーションに適した低レベルの制御と高度な機能を提供しますが、学習しきい値が高く、手動メモリとタイプの安全管理が必要です。

Python vs. C：メモリ管理とコントロールApr 19, 2025 am 12:17 AM

PythonとCは、メモリ管理と制御に大きな違いがあります。 1。Pythonは、参照カウントとガベージコレクションに基づいて自動メモリ管理を使用し、プログラマーの作業を簡素化します。 2.Cには、メモリの手動管理が必要であり、より多くの制御を提供しますが、複雑さとエラーのリスクが増加します。どの言語を選択するかは、プロジェクトの要件とチームテクノロジースタックに基づいている必要があります。

科学コンピューティングのためのPython：詳細な外観Apr 19, 2025 am 12:15 AM

科学コンピューティングにおけるPythonのアプリケーションには、データ分析、機械学習、数値シミュレーション、視覚化が含まれます。 1.numpyは、効率的な多次元配列と数学的関数を提供します。 2。ScipyはNumpy機能を拡張し、最適化と線形代数ツールを提供します。 3. Pandasは、データ処理と分析に使用されます。 4.matplotlibは、さまざまなグラフと視覚的な結果を生成するために使用されます。

PythonとC：適切なツールを見つけるApr 19, 2025 am 12:04 AM

PythonまたはCを選択するかどうかは、プロジェクトの要件に依存するかどうかは次のとおりです。1）Pythonは、簡潔な構文とリッチライブラリのため、迅速な発展、データサイエンス、スクリプトに適しています。 2）Cは、コンピレーションと手動メモリ管理のため、システムプログラミングやゲーム開発など、高性能および基礎となる制御を必要とするシナリオに適しています。

データサイエンスと機械学習のためのPythonApr 19, 2025 am 12:02 AM

Pythonは、データサイエンスと機械学習で広く使用されており、主にそのシンプルさと強力なライブラリエコシステムに依存しています。 1）Pandasはデータ処理と分析に使用され、2）Numpyが効率的な数値計算を提供し、3）SCIKIT-LEARNは機械学習モデルの構築と最適化に使用されます。これらのライブラリは、Pythonをデータサイエンスと機械学習に理想的なツールにします。

Pythonの学習：2時間の毎日の研究で十分ですか？Apr 18, 2025 am 12:22 AM

Pythonを1日2時間学ぶだけで十分ですか？それはあなたの目標と学習方法に依存します。 1）明確な学習計画を策定し、2）適切な学習リソースと方法を選択します。3）実践的な実践とレビューとレビューと統合を練習および統合し、統合すると、この期間中にPythonの基本的な知識と高度な機能を徐々に習得できます。

Web開発用のPython：主要なアプリケーションApr 18, 2025 am 12:20 AM

Web開発におけるPythonの主要なアプリケーションには、DjangoおよびFlaskフレームワークの使用、API開発、データ分析と視覚化、機械学習とAI、およびパフォーマンスの最適化が含まれます。 1。DjangoandFlask Framework：Djangoは、複雑な用途の迅速な発展に適しており、Flaskは小規模または高度にカスタマイズされたプロジェクトに適しています。 2。API開発：フラスコまたはdjangorestFrameworkを使用して、Restfulapiを構築します。 3。データ分析と視覚化：Pythonを使用してデータを処理し、Webインターフェイスを介して表示します。 4。機械学習とAI：Pythonは、インテリジェントWebアプリケーションを構築するために使用されます。 5。パフォーマンスの最適化：非同期プログラミング、キャッシュ、コードを通じて最適化

Python vs. C：パフォーマンスと効率の探索Apr 18, 2025 am 12:20 AM

Pythonは開発効率でCよりも優れていますが、Cは実行パフォーマンスが高くなっています。 1。Pythonの簡潔な構文とリッチライブラリは、開発効率を向上させます。 2.Cのコンピレーションタイプの特性とハードウェア制御により、実行パフォーマンスが向上します。選択を行うときは、プロジェクトのニーズに基づいて開発速度と実行効率を比較検討する必要があります。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 中国語版

中国語版、とても使いやすい

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ドリームウィーバー CS6

ビジュアル Web 開発ツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。