Python での Unicode 書式設定の削除
Python では、xa0 などの特定の Unicode 書式設定文字を文字列操作メソッドを使用して削除できます。
から xa0 を削除しています文字列
Python 2.7 で文字列から非改行スペース (xa0) を削除するには、次のコードを使用できます。
string = string.replace(u'\xa0', u' ')
これにより、xa0 が出現するたびに、通常のスペース文字。
文字エンコーディング考慮事項
xa0 は Latin1 (ISO 8859-1) では chr(160) として表されることに注意してください。 .encode('utf-8') を使用すると、文字列が UTF-8 形式にエンコードされ、xa0 を 2 バイト シーケンス xc2xa0 として表します。
Generalized Unicode Removal
他の Unicode 書式設定文字を削除するには、unicodedata.normalize 関数の使用を検討してください。提供された正規化形式に基づいて Unicode 文字列を正規化します。たとえば、ほとんどの発音記号 (アクセント記号) を削除するには:
import unicodedata normalized_string = unicodedata.normalize('NFKD', string)
Unicode 書式設定の削除は、データで使用されている特定の文字セットに依存することに注意してください。削除操作を実行する前に、エンコードと文字表現を理解することをお勧めします。
以上がPython で Unicode フォーマット文字を削除するには?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。