21 行の Python コードでスペルチェッカーを実装する方法-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

21 行の Python コードでスペルチェッカーを実装する方法

高洛峰

Mar 19, 2017 pm 02:34 PM

python

紹介

Google または Baidu で検索するとき、Google は検索コンテンツを入力するときに常に優れたスペルチェックを提供します。たとえば、スペルと入力すると、Google はすぐに スペル を返します。
以下は、21 行の Python コードで実装された、シンプルだが完全に機能するスペルチェッカーです。

Code

import re, collections

def words(text): return re.findall('[a-z]+', text.lower()) 

def train(features):
    model = collections.defaultdict(lambda: 1)
    for f in features:
        model[f] += 1
    return model

NWORDS = train(words(file('big.txt').read()))

alphabet = 'abcdefghijklmnopqrstuvwxyz'

def edits1(word):
   splits     = [(word[:i], word[i:]) for i in range(len(word) + 1)]
   deletes    = [a + b[1:] for a, b in splits if b]
   transposes = [a + b[1] + b[0] + b[2:] for a, b in splits if len(b)>1]
   replaces   = [a + c + b[1:] for a, b in splits for c in alphabet if b]
   inserts    = [a + c + b     for a, b in splits for c in alphabet]
   return set(deletes + transposes + replaces + inserts)

def known_edits2(word):
    return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)

def known(words): return set(w for w in words if w in NWORDS)

def correct(word):
    candidates = known([word]) or known(edits1(word)) or known_edits2(word) or [word]
    return max(candidates, key=NWORDS.get)

correct 関数はプログラムのエントリポイントであり、渡されたスペルが間違っている単語は正しく返されます。例:

>>> correct("cpoy")
'copy'
>>> correct("engilsh")
'english'
>>> correct("sruprise")
'surprise'

このコードに加えて、機械学習の一環として必ず大量のサンプルデータが必要になります。サンプルデータとして big.txt が用意されています。

背後にある原理

上記のコードはベイジアンに基づいて実装されています。実際、Google Baidu によって実装されているスペルチェックもベイジアンによって実装されていますが、これよりも明らかに複雑です。
まず、その背後にある原理を簡単に紹介します。すでに理解している読者は、このセクションを読み飛ばしていただいても構いません。
単語が与えられると、最も正しいスペル候補を選択しようとします (入力された単語が候補になる場合もあります)。場合によっては、それが不明確である場合 (たとえば、遅刻を遅刻または遅刻に修正する必要があるか)、どちらを提案として使用するかを確率を使用して決定します。元の単語 w に関連するすべての可能な正しいスペルから最も可能性の高いスペル候補 c を見つけます:

argmaxc  P(c|w)

ベイズの定理により、上記の式は

argmaxc P(w|c) P(c) / P(w)

に変換できます。以下は、上の式の意味を紹介します:

P(c|w) は、単語 w を入力するときに、もともと単語 c を入力したかった確率を表します。
P(w|c) は、ユーザーが単語 c を入力したいのに w を入力する確率を表します。これは所与であると考えることができます。
P(c) は単語 c がサンプルデータに出現する確率を表します
P(w) は単語 w がサンプル番号に出現する確率を表します
P(w) はすべての可能な単語に対して決定できますc 確率これらはすべて同じなので、上記の式は次のように変換できます

argmaxc P(w|c) P(c)

すべてのコードはこの式に基づいています

コード分析

words() 関数を使用して抽出します。 big.txt の単語

def words(text): return re.findall('[a-z]+', text.lower())

re.findall('[a-z]+' という単語は、Python 正規表現モジュールを使用して、'[a-z]+' 条件を満たすすべての単語、つまり文字で構成される単語を抽出します。 (正規表現についてはここでは詳しく紹介しません。式については、興味のある学生は正規表現の紹介を参照してください。 text. lower() はテキストを小文字に変換します。つまり、「the」と「The」は同じ単語として定義されます

train() 関数を使用して、各単語の出現回数を計算し、NWORDS[w] がサンプル内に単語 w が出現する回数を表すように、適切なモデル

def train(features):
    model = collections.defaultdict(lambda: 1)
    for f in features:
        model[f] += 1
    return model
NWORDS = train(words(file('big.txt').read()))

をトレーニングします。このメソッドはデフォルトで時間を 1 に設定するもので、コレクションモジュールとラムダ式によって実装されます。 collections.defaultdict() はデフォルトの辞書を作成し、lambda: 1 はこの辞書の各値をデフォルトでは 1 (ラムダ式については、ラムダの概要を参照してください

式

の P(c) を処理したので、次は P(w|c)、つまり単語を入力する確率を処理します。「編集距離」を介して単語 c を入力しようとしたとき、w が間違っている -- ある単語を別の単語に変更するのに必要な編集の数によって測定されます。編集には、削除、交換 (隣接する 2 つの文字)、挿入、および 1 つの単語が含まれます。次の関数は、c を返します。一度編集することで取得できるすべての単語 w のセットです。 argmaxc P(w|c) P(c)

def edits1(word):
   splits     = [(word[:i], word[i:]) for i in range(len(word) + 1)]
   deletes    = [a + b[1:] for a, b in splits if b]
   transposes = [a + b[1] + b[0] + b[2:] for a, b in splits if len(b)>1]
   replaces   = [a + c + b[1:] for a, b in splits for c in alphabet if b]
   inserts    = [a + c + b     for a, b in splits for c in alphabet]
   return set(deletes + transposes + replaces + inserts)

関連する論文によると、スペルミスの 80 ～ 95% は、スペルしたい単語からわずか 1 つの編集距離にあります。 1 回の編集では不十分だと感じたら、もう一度編集しましょう

def known_edits2(word):
    return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)

同時に、編集距離が 0 回で正しく綴られているものもある可能性があります:

def known(words):
    return set(w for w in words if w in NWORDS)

編集の確率は次のように仮定します。 1 回の距離は 2 回よりもはるかに大きく、0 回の確率は 1 回よりもはるかに大きくなります。まず、編集距離が最小の単語を選択します。それに対応する P(w|c) は次のようになります。候補単語としてより大きいものを選択し、スペル候補として最大の P(c) を持つ単語を選択します

def correct(word):
    candidates = known([word]) or known(edits1(word)) or known_edits2(word) or [word]
    return max(candidates, key=NWORDS.get

以上が21 行の Python コードでスペルチェッカーを実装する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonの学習：2時間の毎日の研究で十分ですか？Apr 18, 2025 am 12:22 AM

Pythonを1日2時間学ぶだけで十分ですか？それはあなたの目標と学習方法に依存します。 1）明確な学習計画を策定し、2）適切な学習リソースと方法を選択します。3）実践的な実践とレビューとレビューと統合を練習および統合し、統合すると、この期間中にPythonの基本的な知識と高度な機能を徐々に習得できます。

Web開発用のPython：主要なアプリケーションApr 18, 2025 am 12:20 AM

Web開発におけるPythonの主要なアプリケーションには、DjangoおよびFlaskフレームワークの使用、API開発、データ分析と視覚化、機械学習とAI、およびパフォーマンスの最適化が含まれます。 1。DjangoandFlask Framework：Djangoは、複雑な用途の迅速な発展に適しており、Flaskは小規模または高度にカスタマイズされたプロジェクトに適しています。 2。API開発：フラスコまたはdjangorestFrameworkを使用して、Restfulapiを構築します。 3。データ分析と視覚化：Pythonを使用してデータを処理し、Webインターフェイスを介して表示します。 4。機械学習とAI：Pythonは、インテリジェントWebアプリケーションを構築するために使用されます。 5。パフォーマンスの最適化：非同期プログラミング、キャッシュ、コードを通じて最適化

Python vs. C：パフォーマンスと効率の探索Apr 18, 2025 am 12:20 AM

Pythonは開発効率でCよりも優れていますが、Cは実行パフォーマンスが高くなっています。 1。Pythonの簡潔な構文とリッチライブラリは、開発効率を向上させます。 2.Cのコンピレーションタイプの特性とハードウェア制御により、実行パフォーマンスが向上します。選択を行うときは、プロジェクトのニーズに基づいて開発速度と実行効率を比較検討する必要があります。

Python in Action：実世界の例Apr 18, 2025 am 12:18 AM

Pythonの実際のアプリケーションには、データ分析、Web開発、人工知能、自動化が含まれます。 1）データ分析では、PythonはPandasとMatplotlibを使用してデータを処理および視覚化します。 2）Web開発では、DjangoおよびFlask FrameworksがWebアプリケーションの作成を簡素化します。 3）人工知能の分野では、TensorflowとPytorchがモデルの構築と訓練に使用されます。 4）自動化に関しては、ファイルのコピーなどのタスクにPythonスクリプトを使用できます。

Pythonの主な用途：包括的な概要Apr 18, 2025 am 12:18 AM

Pythonは、データサイエンス、Web開発、自動化スクリプトフィールドで広く使用されています。 1）データサイエンスでは、PythonはNumpyやPandasなどのライブラリを介してデータ処理と分析を簡素化します。 2）Web開発では、DjangoおよびFlask Frameworksにより、開発者はアプリケーションを迅速に構築できます。 3）自動化されたスクリプトでは、Pythonのシンプルさと標準ライブラリが理想的になります。

Pythonの主な目的：柔軟性と使いやすさApr 17, 2025 am 12:14 AM

Pythonの柔軟性は、マルチパラダイムサポートと動的タイプシステムに反映されていますが、使いやすさはシンプルな構文とリッチ標準ライブラリに由来しています。 1。柔軟性：オブジェクト指向、機能的および手続き的プログラミングをサポートし、動的タイプシステムは開発効率を向上させます。 2。使いやすさ：文法は自然言語に近く、標準的なライブラリは幅広い機能をカバーし、開発プロセスを簡素化します。

Python：汎用性の高いプログラミングの力Apr 17, 2025 am 12:09 AM

Pythonは、初心者から上級開発者までのすべてのニーズに適した、そのシンプルさとパワーに非常に好まれています。その汎用性は、次のことに反映されています。1）学習と使用が簡単、シンプルな構文。 2）Numpy、Pandasなどの豊富なライブラリとフレームワーク。 3）さまざまなオペレーティングシステムで実行できるクロスプラットフォームサポート。 4）作業効率を向上させるためのスクリプトおよび自動化タスクに適しています。

1日2時間でPythonを学ぶ：実用的なガイドApr 17, 2025 am 12:05 AM

はい、1日2時間でPythonを学びます。 1.合理的な学習計画を作成します。2。適切な学習リソースを選択します。3。実践を通じて学んだ知識を統合します。これらの手順は、短時間でPythonをマスターするのに役立ちます。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。