ホームページ >バックエンド開発 >Python チュートリアル >Pythonベースで漢字をGBKコードに変換する実装コード
これらの文字を削除します:
最初にすべての分割リストをデコードしてから、
このエンコード シーケンスを使用すると、gbk ライブラリから B0 ~ D7 文字を削除できます。
最後に、削除されていないスペースが残っていることを確認しました。スペースの Unicode コードは u3000
gbk.remove(u'u3000')
最後に、UTF- にエンコードされます。 8 を辞書ファイルに保存します。
この辞書ファイルをネットワーク ディスクに置きます。外部リンク: http://dl.dbank.com/c0m9selr6h
ステップ 2: 中国語の文字にインデックスを付ける
辞書内の中国語文字は元の順序で格納されており、GBK エンコーディング テーブル 2 の 3755 文字はセクションあたり 94 中国語文字のルールに厳密に従っているため、インデックスは単純なアルゴリズムです。それでは、これを実行しましょう。除数 + 1 を四捨五入してセクション コードを見つけます。次に、漢字インデックス - セクション インデックス * 94 を使用して、このセクションの漢字のインデックスを取得し、上で生成された A1-FE リストとインデックスを使用します。をクリックして 2 番目のコードを見つけます。
アルゴリズムのアイデアがあり、コーディングしてデバッグします
Python コードとコメントを添付します:
私の Python コードはそれほどきちんとしていないことを認めなければなりません
私の Weibo ID: XiaoluanCooper を添付します