解決策のアイデア
最初に思いつくのは、Python の正規表現を使用して不正な文字と一致し、不正なレコードを見つけることです。しかし、理想は常に満たされていますが、現実は残酷です。実装プロセス中に、文字エンコーディングと Python の内部文字列表現に関する知識が不足していることがわかりました。この間、何度も落とし穴を経験し、最終的にはまだ曖昧な部分もありましたが、最終的には全体的に明確な理解を得ることができました。将来同じ状況に陥ることを避けるために、ここにあなたの経験を記録してください。
以下のテスト環境は、ArcGIS 10.3 に付属の Python 2.7.8 環境です。他の Python 環境も適切であるという保証はありません。
Python正規表現
Pythonの通常の関数は、主に3つの関数を使用する組み込みのre関数ライブラリによって提供されます。 re.compile()
提供可重用的正则表达式,match()
和 search()
函数返回匹配结果,两者之间的区别在于: match()
从指定位置开始匹配,search()
会从指定位置向后搜索直到找到匹配字符串。例如下面的代码中,match_result
从第一个字符 f 开始匹配,匹配失败返回空值;search_result
f から開始して最初に一致する文字 a が見つかるまで逆方向に検索し、一致した結果を group() 関数を通じて文字 a として出力します。
上記の実装では、最初にパターンをコンパイルしてからマッチングする必要があります。実際、マッチングを開始する位置を指定できる re.match(pattern, string)
函数来实现相同的功能。但是直接匹配的方式没有先编译再匹配的方式灵活,首先是正则表达式没办法重用,如果大量数据进行同一模式匹配,意味着每次都需要内部编译,造成性能损失;另外,re.match()
函数没有 pattern.match()
の強力な機能を直接利用することができます。
エンコードの問題
Python 正規表現の基本的な機能を理解したら、あとは珍しい単語や不正な文字に一致する適切な正規表現を見つけるだけです。不正な文字は非常に単純で、次のパターンを使用して一致させることができます:
しかし、レアキャラクターのマッチングには本当に戸惑いました。まず、珍しい単語の定義ですが、どのような単語が珍しいと考えられますか。プロジェクトマネージャーと相談した結果、GB2312以外のキャラクターはレアキャラクターであると判断されました。次の質問は、GB2312 文字をどのように照合するかということです。
お問い合わせ後、GB2312の範囲は [xA1-xF7][xA1-xFE]
,其中汉字区的范围是 [xB0-xF7][xA1-xFE]
となります。したがって、レアワードマッチングを追加した後の式は次のようになります:
問題はスムーズに解決されたように見えますが、私はまだ単純すぎて世間知らずすぎます。判定対象の文字列はすべてレイヤー ファイルから読み取られるため、arcpy は読み取った文字を慎重に Unicode 形式にエンコードします。したがって、Unicode における GB2312 文字セットのエンコード範囲を調べる必要があります。しかし実際には、Unicode における GB2312 文字セットの分布は連続的ではなく、正規表現を使用してこの範囲を表すのは非常に複雑になるはずです。正規表現を使用して珍しい単語を照合するというアイデアは行き詰まったようです。
解決策
提供された文字列は Unicode 形式なので、GB2312 に変換して照合できますか?実際、それは不可能です。Unicode 文字セットは GB2312 文字セットよりもはるかに大きいため、GB2312 => unicode
总是可以实现的,而反过来 unicode => GB2312
は成功しない可能性があります。
これにより、突然別のアイデアが浮かび上がりました。文字列の unicode => GB2312
转换会失败,那么是不是恰恰说明了它不属于 GB2312 字符集?所以,我使用 unicode_string.encode('GB2312')
関数が文字列を変換しようとして、まれな単語を識別するために UnicodeEncodeError 例外をキャッチするとします。
最終的なコードは次のとおりです:
概要
以上がこの記事の内容です。この記事の内容が皆さんの勉強や仕事に少しでもお役に立てれば幸いです。ご不明な点がございましたら、メッセージを残してご連絡ください。

Tomergelistsinpython、あなたはオペレーター、extendmethod、listcomfulting、olitertools.chain、それぞれの特異的advantages:1)operatorissimplebutlessforlargelist;

Python 3では、2つのリストをさまざまな方法で接続できます。1)小さなリストに適したオペレーターを使用しますが、大きなリストには非効率的です。 2)メモリ効率が高い大規模なリストに適した拡張方法を使用しますが、元のリストは変更されます。 3)元のリストを変更せずに、複数のリストをマージするのに適した *オペレーターを使用します。 4)Itertools.chainを使用します。これは、メモリ効率が高い大きなデータセットに適しています。

Join()メソッドを使用することは、Pythonのリストから文字列を接続する最も効率的な方法です。 1)join()メソッドを使用して、効率的で読みやすくなります。 2)サイクルは、大きなリストに演算子を非効率的に使用します。 3)リスト理解とJoin()の組み合わせは、変換が必要なシナリオに適しています。 4)redoce()メソッドは、他のタイプの削減に適していますが、文字列の連結には非効率的です。完全な文は終了します。

pythonexexecutionistheprocessoftransforningpythoncodeintoexecutabletructions.1)interpreterreadSthecode、変換intobytecode、thepythonvirtualmachine(pvm)executes.2)theglobalinterpreeterlock(gil)管理委員会、

Pythonの主な機能には次のものがあります。1。構文は簡潔で理解しやすく、初心者に適しています。 2。動的タイプシステム、開発速度の向上。 3。複数のタスクをサポートするリッチ標準ライブラリ。 4.強力なコミュニティとエコシステム、広範なサポートを提供する。 5。スクリプトと迅速なプロトタイピングに適した解釈。 6.さまざまなプログラミングスタイルに適したマルチパラダイムサポート。

Pythonは解釈された言語ですが、コンパイルプロセスも含まれています。 1)Pythonコードは最初にBytecodeにコンパイルされます。 2)ByteCodeは、Python Virtual Machineによって解釈および実行されます。 3)このハイブリッドメカニズムにより、Pythonは柔軟で効率的になりますが、完全にコンパイルされた言語ほど高速ではありません。

useaforloopwhenteratingoverasequenceor foraspificnumberoftimes; useawhileloopwhentinuninguntinuntilaConditionismet.forloopsareidealforknownownownownownownoptinuptinuptinuptinuptinutionsituations whileoopsuitsituations withinterminedationations。

pythonloopscanleadtoErrorslikeinfiniteloops、ModifiningListsDuringiteration、Off-Oneerrors、Zero-dexingissues、およびNestededLoopinefficiencies.toavoidhese:1)use'i


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

Dreamweaver Mac版
ビジュアル Web 開発ツール

SublimeText3 中国語版
中国語版、とても使いやすい

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。
