Pythonで希少単語を検出する実装方法-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Pythonで希少単語を検出する実装方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Dec 05, 2016 pm 01:27 PM

python珍しい言葉

解決策のアイデア

最初に思いつくのは、Python の正規表現を使用して不正な文字と一致し、不正なレコードを見つけることです。しかし、理想は常に満たされていますが、現実は残酷です。実装プロセス中に、文字エンコーディングと Python の内部文字列表現に関する知識が不足していることがわかりました。この間、何度も落とし穴を経験し、最終的にはまだ曖昧な部分もありましたが、最終的には全体的に明確な理解を得ることができました。将来同じ状況に陥ることを避けるために、ここにあなたの経験を記録してください。

以下のテスト環境は、ArcGIS 10.3 に付属の Python 2.7.8 環境です。他の Python 環境も適切であるという保証はありません。

Python正規表現

Pythonの通常の関数は、主に3つの関数を使用する組み込みのre関数ライブラリによって提供されます。 re.compile() 提供可重用的正则表达式，match() 和 search() 函数返回匹配结果，两者之间的区别在于： match() 从指定位置开始匹配，search() 会从指定位置向后搜索直到找到匹配字符串。例如下面的代码中，match_result 从第一个字符 f 开始匹配，匹配失败返回空值；search_result f から開始して最初に一致する文字 a が見つかるまで逆方向に検索し、一致した結果を group() 関数を通じて文字 a として出力します。

リーリー

上記の実装では、最初にパターンをコンパイルしてからマッチングする必要があります。実際、マッチングを開始する位置を指定できる re.match(pattern, string) 函数来实现相同的功能。但是直接匹配的方式没有先编译再匹配的方式灵活，首先是正则表达式没办法重用，如果大量数据进行同一模式匹配，意味着每次都需要内部编译，造成性能损失；另外，re.match() 函数没有 pattern.match() の強力な機能を直接利用することができます。

エンコードの問題

Python 正規表現の基本的な機能を理解したら、あとは珍しい単語や不正な文字に一致する適切な正規表現を見つけるだけです。不正な文字は非常に単純で、次のパターンを使用して一致させることができます:

リーリー

しかし、レアキャラクターのマッチングには本当に戸惑いました。まず、珍しい単語の定義ですが、どのような単語が珍しいと考えられますか。プロジェクトマネージャーと相談した結果、GB2312以外のキャラクターはレアキャラクターであると判断されました。次の質問は、GB2312 文字をどのように照合するかということです。

お問い合わせ後、GB2312の範囲は [xA1-xF7][xA1-xFE] ，其中汉字区的范围是 [xB0-xF7][xA1-xFE] となります。したがって、レアワードマッチングを追加した後の式は次のようになります:

リーリー

問題はスムーズに解決されたように見えますが、私はまだ単純すぎて世間知らずすぎます。判定対象の文字列はすべてレイヤーファイルから読み取られるため、arcpy は読み取った文字を慎重に Unicode 形式にエンコードします。したがって、Unicode における GB2312 文字セットのエンコード範囲を調べる必要があります。しかし実際には、Unicode における GB2312 文字セットの分布は連続的ではなく、正規表現を使用してこの範囲を表すのは非常に複雑になるはずです。正規表現を使用して珍しい単語を照合するというアイデアは行き詰まったようです。

解決策

提供された文字列は Unicode 形式なので、GB2312 に変換して照合できますか?実際、それは不可能です。Unicode 文字セットは GB2312 文字セットよりもはるかに大きいため、GB2312 => unicode 总是可以实现的，而反过来 unicode => GB2312 は成功しない可能性があります。

これにより、突然別のアイデアが浮かび上がりました。文字列の unicode => GB2312 转换会失败，那么是不是恰恰说明了它不属于 GB2312 字符集？所以，我使用 unicode_string.encode('GB2312') 関数が文字列を変換しようとして、まれな単語を識別するために UnicodeEncodeError 例外をキャッチするとします。

最終的なコードは次のとおりです:

リーリー

概要

以上がこの記事の内容です。この記事の内容が皆さんの勉強や仕事に少しでもお役に立てれば幸いです。ご不明な点がございましたら、メッセージを残してご連絡ください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonの融合リスト：適切な方法を選択しますMay 14, 2025 am 12:11 AM

Tomergelistsinpython、あなたはオペレーター、extendmethod、listcomfulting、olitertools.chain、それぞれの特異的advantages：1）operatorissimplebutlessforlargelist;

Python 3の2つのリストを連結する方法は？May 14, 2025 am 12:09 AM

Python 3では、2つのリストをさまざまな方法で接続できます。1）小さなリストに適したオペレーターを使用しますが、大きなリストには非効率的です。 2）メモリ効率が高い大規模なリストに適した拡張方法を使用しますが、元のリストは変更されます。 3）元のリストを変更せずに、複数のリストをマージするのに適した *オペレーターを使用します。 4）Itertools.chainを使用します。これは、メモリ効率が高い大きなデータセットに適しています。

Python Concatenateリスト文字列May 14, 2025 am 12:08 AM

Join（）メソッドを使用することは、Pythonのリストから文字列を接続する最も効率的な方法です。 1）join（）メソッドを使用して、効率的で読みやすくなります。 2）サイクルは、大きなリストに演算子を非効率的に使用します。 3）リスト理解とJoin（）の組み合わせは、変換が必要なシナリオに適しています。 4）redoce（）メソッドは、他のタイプの削減に適していますが、文字列の連結には非効率的です。完全な文は終了します。

Pythonの実行、それは何ですか？May 14, 2025 am 12:06 AM

pythonexexecutionistheprocessoftransforningpythoncodeintoexecutabletructions.1）interpreterreadSthecode、変換intobytecode、thepythonvirtualmachine（pvm）executes.2）theglobalinterpreeterlock（gil）管理委員会、

Python：重要な機能は何ですかMay 14, 2025 am 12:02 AM

Pythonの主な機能には次のものがあります。1。構文は簡潔で理解しやすく、初心者に適しています。 2。動的タイプシステム、開発速度の向上。 3。複数のタスクをサポートするリッチ標準ライブラリ。 4.強力なコミュニティとエコシステム、広範なサポートを提供する。 5。スクリプトと迅速なプロトタイピングに適した解釈。 6.さまざまなプログラミングスタイルに適したマルチパラダイムサポート。

Python：コンパイラまたはインタープリター？May 13, 2025 am 12:10 AM

Pythonは解釈された言語ですが、コンパイルプロセスも含まれています。 1）Pythonコードは最初にBytecodeにコンパイルされます。 2）ByteCodeは、Python Virtual Machineによって解釈および実行されます。 3）このハイブリッドメカニズムにより、Pythonは柔軟で効率的になりますが、完全にコンパイルされた言語ほど高速ではありません。

ループvs whileループ用のpython：いつ使用するか？May 13, 2025 am 12:07 AM

useaforloopwhenteratingoverasequenceor foraspificnumberoftimes; useawhileloopwhentinuninguntinuntilaConditionismet.forloopsareidealforknownownownownownownoptinuptinuptinuptinuptinutionsituations whileoopsuitsituations withinterminedationations。

Pythonループ：最も一般的なエラーMay 13, 2025 am 12:07 AM

pythonloopscanleadtoErrorslikeinfiniteloops、ModifiningListsDuringiteration、Off-Oneerrors、Zero-dexingissues、およびNestededLoopinefficiencies.toavoidhese：1）use'i

See all articles