搜尋
首頁後端開發Python教學一個21行Python程式碼實作拼字檢查器的方法

引入

大家在使用Google或百度搜尋時,輸入搜尋內容時,Google總是能提供非常好的拼字檢查,例如你輸入 speling,Google會馬上返回spelling
以下是用21行python程式碼實現的一個簡易但是具備完整功能的拼字檢查器。

程式碼

import re, collections

def words(text): return re.findall('[a-z]+', text.lower()) 

def train(features):
    model = collections.defaultdict(lambda: 1)
    for f in features:
        model[f] += 1
    return model

NWORDS = train(words(file('big.txt').read()))

alphabet = 'abcdefghijklmnopqrstuvwxyz'

def edits1(word):
   splits     = [(word[:i], word[i:]) for i in range(len(word) + 1)]
   deletes    = [a + b[1:] for a, b in splits if b]
   transposes = [a + b[1] + b[0] + b[2:] for a, b in splits if len(b)>1]
   replaces   = [a + c + b[1:] for a, b in splits for c in alphabet if b]
   inserts    = [a + c + b     for a, b in splits for c in alphabet]
   return set(deletes + transposes + replaces + inserts)

def known_edits2(word):
    return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)

def known(words): return set(w for w in words if w in NWORDS)

def correct(word):
    candidates = known([word]) or known(edits1(word)) or known_edits2(word) or [word]
    return max(candidates, key=NWORDS.get)

correct函數是程式的入口,傳進去錯誤拼字的單字會回傳正確。如:

>>> correct("cpoy")
'copy'
>>> correct("engilsh")
'english'
>>> correct("sruprise")
'surprise'

除了這段程式碼外,作為機器學習的一部分,肯定還應該有大量的樣本數據,準備了big.txt作為我們的樣本數據。

背後原理

上面的程式碼是基於貝葉斯來實現的,事實上谷歌百度實現的拼字檢查也是透過貝葉斯實現,不過肯定比這個複雜多了。
先簡單介紹背後的原理,如果讀者之前了解過了,可以跳過這段。
給一個詞,我們試著選取一個最可能的正確的拼字建議(建議也可能是輸入的單字)。有時也不清楚(例如lates應該被更正為late或latest?),我們用機率決定把哪一個當作建議。我們從跟原始字w相關的所有可能的正確拼字中找到可能性最大的那個拼字建議c:

argmaxc  P(c|w)

透過貝葉斯定理,上式可以轉化為

argmaxc P(w|c) P(c) / P(w)

下面介紹上式中的意義:

  1. P(c|w)代表在輸入單字w 的情況下,你本來想輸入單字c的機率。

  2. P(w|c)代表使用者想要輸入單字c卻輸入w的機率,這個可以我們認為給定的。

  3. P(c)代表在樣本資料中單字c出現的機率

  4. P(w)代表在樣本數字中單字w出現的機率
    可以確定P(w)對於所有可能的單字c機率都是一樣的,所以上式可以轉換為

argmaxc P(w|c) P(c)

我們所有的程式碼都是基於這個公式來的,下面分析具體程式碼實作

程式碼分析

利用words()函數擷取big.txt中的單字

def words(text): return re.findall('[a-z]+', text.lower())

re.findall('[a-z] +'是利用python正規表示式模組,提取所有的符合'[a-z]+'條件的,也就是由字母組成的單字。簡介。訓練出一個合適的模型

def train(features):
    model = collections.defaultdict(lambda: 1)
    for f in features:
        model[f] += 1
    return model
NWORDS = train(words(file('big.txt').read()))

這樣NWORDS[w]代表了單字w在樣本中出現的次數。的次數預設為1,這裡透過collections模組和lambda表達式實作。可以看lambda簡介

現在我們處理完了公式

argmaxc P(w|c) P(c)

中的P(c),接下來處理P(w|c)即想輸入單字c卻錯誤地輸入單字w的機率,透過「edit distance「-將一個單字變成另一個單字所需的編輯次數來衡量,一次edit可能是一次刪除,一個交換(兩個相鄰的字母),一次插入,一次修改。的單字都只有1個編輯距離,如果覺得一次編輯不夠,那我們再來一次<pre class="brush:php;toolbar:false">def edits1(word):    splits     = [(word[:i], word[i:]) for i in range(len(word) + 1)]    deletes    = [a + b[1:] for a, b in splits if b]    transposes = [a + b[1] + b[0] + b[2:] for a, b in splits if len(b)&gt;1]    replaces   = [a + c + b[1:] for a, b in splits for c in alphabet if b]    inserts    = [a + c + b     for a, b in splits for c in alphabet]    return set(deletes + transposes + replaces + inserts)</pre>同時還可能有編輯距離為0次的即本身就拼寫正確的:

def known_edits2(word):
    return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)

我們假設編輯距離1次的機率遠大於2次的,0次的遠大於1次的。候選單詞,再選擇P(c)最大的那個單字作為拼字建議

def known(words):
    return set(w for w in words if w in NWORDS)

以上是一個21行Python程式碼實作拼字檢查器的方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
详细讲解Python之Seaborn(数据可视化)详细讲解Python之Seaborn(数据可视化)Apr 21, 2022 pm 06:08 PM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于Seaborn的相关问题,包括了数据可视化处理的散点图、折线图、条形图等等内容,下面一起来看一下,希望对大家有帮助。

详细了解Python进程池与进程锁详细了解Python进程池与进程锁May 10, 2022 pm 06:11 PM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于进程池与进程锁的相关问题,包括进程池的创建模块,进程池函数等等内容,下面一起来看一下,希望对大家有帮助。

Python自动化实践之筛选简历Python自动化实践之筛选简历Jun 07, 2022 pm 06:59 PM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于简历筛选的相关问题,包括了定义 ReadDoc 类用以读取 word 文件以及定义 search_word 函数用以筛选的相关内容,下面一起来看一下,希望对大家有帮助。

归纳总结Python标准库归纳总结Python标准库May 03, 2022 am 09:00 AM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于标准库总结的相关问题,下面一起来看一下,希望对大家有帮助。

Python数据类型详解之字符串、数字Python数据类型详解之字符串、数字Apr 27, 2022 pm 07:27 PM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于数据类型之字符串、数字的相关问题,下面一起来看一下,希望对大家有帮助。

分享10款高效的VSCode插件,总有一款能够惊艳到你!!分享10款高效的VSCode插件,总有一款能够惊艳到你!!Mar 09, 2021 am 10:15 AM

VS Code的确是一款非常热门、有强大用户基础的一款开发工具。本文给大家介绍一下10款高效、好用的插件,能够让原本单薄的VS Code如虎添翼,开发效率顿时提升到一个新的阶段。

详细介绍python的numpy模块详细介绍python的numpy模块May 19, 2022 am 11:43 AM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于numpy模块的相关问题,Numpy是Numerical Python extensions的缩写,字面意思是Python数值计算扩展,下面一起来看一下,希望对大家有帮助。

python中文是什么意思python中文是什么意思Jun 24, 2019 pm 02:22 PM

pythn的中文意思是巨蟒、蟒蛇。1989年圣诞节期间,Guido van Rossum在家闲的没事干,为了跟朋友庆祝圣诞节,决定发明一种全新的脚本语言。他很喜欢一个肥皂剧叫Monty Python,所以便把这门语言叫做python。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。