搜尋
首頁後端開發Python教學如何用Python偵測生僻字

如何用Python偵測生僻字

Mar 11, 2017 am 10:53 AM
python生僻字

最近在工作中碰到一個需求,要求偵測欄位是否包含生僻字以及一些非法字元如 ~!@#$%^&*。透過網路上的查找資料解決了,現在將解決的流程和範例程式碼分享給大家,有需要的可以參考借鏡。下面來一起看看吧。

解決思路

首先想到的就是利用 python 的正規表示式來匹配非法字符,然後找出非法記錄。然而理想總是豐滿的,現實卻是殘酷的。在實現的過程中,才發現自己對於字元編碼、以及 python 內部字串所表示的相關知識的缺乏。在這段期間,踩過了不少坑,到最後雖然還有些模糊的地方,但總算有一個整體清晰的了解。在此記錄下心得,避免日後在同一個地方跌倒。

以下的測試環境是 ArcGIS 10.3 隨附的 python 2.7.8 環境,不保證其他 python 環境也適用。

python 正規表示式

python 中的正規功能由內嵌的 re 函式庫提供,主要用到 3 個函數。 re.compile() 提供可重複使用的正規表示式,match() search() 函數傳回符合結果,兩者之間的差異在於: match() 從指定位置開始匹配,search() 會從指定位置向後搜尋直到找到匹配字串。例如下面的程式碼中,match_result 從第一個字元f 開始匹配,匹配失敗返回空值;search_result 從f 開始向後搜索,直到找到第一個匹配的字符a, 然後透過group() 函數輸出匹配結果為字元a。

import re

pattern = re.compile('[abc]')
match_result = pattern.match('fabc')
if match_result:
 print match_result.group()

search_result = pattern.search('fabc')
if search_result:
 print search_result.group()

以上的實作方式需要先編譯一個 pattern,然後再進行比對。實際上,我們可以直接利用 re.match(pattern, string) 函數來實現相同的功能。但是直接匹配的方式沒有先編譯再匹配的方式靈活,首先是正則表達式沒辦法重用,如果大量數據進行同一模式匹配,意味著每次都需要內部編譯,造成性能損失;另外,re .match() 函數沒有 pattern.match() 功能強大,後者可以指定從哪個位置開始匹配。

編碼問題

了解python 正規的基本功能後,剩下的事情就是找到一個合適的正規表示式來匹配生僻字和非法字符。非法字元很簡單,採用以下 pattern 就可以實現匹配:

pattern = re.compile(r'[~!@#$%^&* ]')

然而對於生僻字的匹配,著實難倒了我。首先是對於生僻字的定義,什麼樣的字算生僻字?經過諮詢專案經理,規定非 GB2312 的字元屬於生僻字。接下來的問題是,如何匹配 GB2312 字元?

經過查詢,GB2312 的範圍是 [\xA1-\xF7][\xA1-\xFE] ,其中漢字區的範圍是 [\xB0-\xF7] [\xA1-\xFE] 。因此,加入生僻字匹配後的表達式為:

pattern = re.compile(r'[~!@#$%^&* ]|[^\xA1-\xF7][^\xA1-\xFE]')

問題似乎是順理得當地解決了,然而我還是 too simple too naive 。由於要判斷的字串都是從圖層檔案讀取的,arcpy 貼心地將讀取的字元編碼為 unicode 格式。因此,我需要找出 GB2312 字元集在 unicode 中的編碼範圍。但現實是,GB2312 字元集在 unicode 中的分佈並不是連續的,使用正規表示這個範圍必定是非常複雜的。使用正規表示式來匹配生僻字的構想,似乎陷入了死胡同。

解決方案

既然提供的字串是 unicode 格式,那麼我可不可以轉換為 GB2312 再進行比對呢?實際上是不行,因為unicode 字元集要遠大於GB2312 字元集,因此GB2312 => unicode 總是可以實現的,而反過來unicode => GB2312 不一定能成功。

這突然為我提供了另外一種思路,假設一個字串的 unicode => GB2312 轉換會失敗,那麼是不是恰恰說明了它不屬於 GB2312 字元集?所以,我使用 unicode_string.encode('GB2312') 函數嘗試轉換字串,捕獲 UnicodeEncodeError 異常來識別生僻字。

最終的程式碼如下:

#
import re

def is_rare_name(string):
 pattern = re.compile(u"[~!@#$%^&* ]")
 match = pattern.search(string)
 if match:
 return True

 try:
    string.encode("gb2312")
  except UnicodeEncodeError:
   return True

  return False

總結

以上是如何用Python偵測生僻字的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
Python:深入研究彙編和解釋Python:深入研究彙編和解釋May 12, 2025 am 12:14 AM

pythonisehybridmodeLofCompilation和interpretation:1)thepythoninterpretercompilesourcecececodeintoplatform- interpententbybytecode.2)thepythonvirtualmachine(pvm)thenexecutecutestestestestestesthisbytecode,ballancingEaseofuseEfuseWithPerformance。

Python是一種解釋或編譯語言,為什麼重要?Python是一種解釋或編譯語言,為什麼重要?May 12, 2025 am 12:09 AM

pythonisbothinterpretedAndCompiled.1)它的compiledTobyTecodeForportabilityAcrosplatforms.2)bytecodeisthenInterpreted,允許fordingfordforderynamictynamictymictymictymictyandrapiddefupment,儘管Ititmaybeslowerthananeflowerthanancompiledcompiledlanguages。

對於python中的循環時循環與循環:解釋了關鍵差異對於python中的循環時循環與循環:解釋了關鍵差異May 12, 2025 am 12:08 AM

在您的知識之際,而foroopsareideal insinAdvance中,而WhileLoopSareBetterForsituations則youneedtoloopuntilaconditionismet

循環時:實用指南循環時:實用指南May 12, 2025 am 12:07 AM

ForboopSareSusedwhenthentheneMberofiterationsiskNownInAdvance,而WhileLoopSareSareDestrationsDepportonAcondition.1)ForloopSareIdealForiteratingOverSequencesLikelistSorarrays.2)whileLeleLooleSuitableApeableableableableableableforscenarioscenarioswhereTheLeTheLeTheLeTeLoopContinusunuesuntilaspecificiccificcificCondond

Python:它是真正的解釋嗎?揭穿神話Python:它是真正的解釋嗎?揭穿神話May 12, 2025 am 12:05 AM

pythonisnotpuroly interpred; itosisehybridablectofbytecodecompilationandruntimeinterpretation.1)PythonCompiLessourceceCeceDintobyTecode,whitsthenexecececected bytybytybythepythepythepythonvirtirtualmachine(pvm).2)

與同一元素的Python串聯列表與同一元素的Python串聯列表May 11, 2025 am 12:08 AM

concatenateListSinpythonWithTheSamelements,使用:1)operatoTotakeEpduplicates,2)asettoremavelemavphicates,or3)listcompreanspherensionforcontroloverduplicates,每個methodhasdhasdifferentperferentperferentperforentperforentperforentperfornceandordorimplications。

解釋與編譯語言:Python的位置解釋與編譯語言:Python的位置May 11, 2025 am 12:07 AM

pythonisanterpretedlanguage,offeringosofuseandflexibilitybutfacingperformancelanceLimitationsInCricapplications.1)drightingedlanguageslikeLikeLikeLikeLikeLikeLikeLikeThonexecuteline-by-line,允許ImmediaMediaMediaMediaMediaMediateFeedBackAndBackAndRapidPrototypiD.2)compiledLanguagesLanguagesLagagesLikagesLikec/c thresst

循環時:您什麼時候在Python中使用?循環時:您什麼時候在Python中使用?May 11, 2025 am 12:05 AM

Useforloopswhenthenumberofiterationsisknowninadvance,andwhileloopswheniterationsdependonacondition.1)Forloopsareidealforsequenceslikelistsorranges.2)Whileloopssuitscenarioswheretheloopcontinuesuntilaspecificconditionismet,usefulforuserinputsoralgorit

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中