NLTK 学習: 語彙の分類と注釈付け-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

NLTK 学習: 語彙の分類と注釈付け

巴扎黑

Jun 23, 2017 pm 03:33 PM

nltk勉強マークノート

[TOC]

品詞タグ付け

その後の多くのタスクでは、タグ付きの単語が必要になります。 nltk には独自の英語タガー pos_tag が付属していますpos_tag

import nltk
text = nltk.word_tokenize("And now for something compleyely difference")print(text)print(nltk.pos_tag(text))

标注语料库

表示已经标注的标识符:`nltk.tag.str2tuple('word/类型')`

text = "The/AT grand/JJ is/VBD ."print([nltk.tag.str2tuple(t) for t in text.split()])

读取已经标注的语料库

nltk语料库ue肚脐提供了统一接口，可以不必理会不同的文件格式。格式:语料库.tagged_word()/tagged_sents()。参数可以指定categories和fields

print(nltk.corpus.brown.tagged_words())

名词、动词、形容词等

这里以名词为例

from nltk.corpus import brown
word_tag = nltk.FreqDist(brown.tagged_words(categories="news"))print([word+&#39;/&#39;+tag for (word,tag)in word_tag if tag.startswith(&#39;V&#39;)])################下面是查找money的不同标注#################################wsj = brown.tagged_words(categories="news")
cfd = nltk.ConditionalFreqDist(wsj)print(cfd[&#39;money&#39;].keys())

尝试找出每个名词类型中最频繁的名词

def findtag(tag_prefix,tagged_text):
    cfd = nltk.ConditionalFreqDist((tag,word) for (word,tag) in tagged_text if tag.startswith(tag_prefix))return dict((tag,list(cfd[tag].keys())[:5]) for tag in cfd.conditions())#数据类型必须转换为list才能进行切片操作tagdict = findtag(&#39;NN&#39;,nltk.corpus.brown.tagged_words(categories="news"))for tag in sorted(tagdict):print(tag,tagdict[tag])

探索已经标注的语料库

需要nltk.bigrams()和nltk.trigrams()，分别对应2-gram模型和3-gram模型。

brown_tagged = brown.tagged_words(categories="learned")
tags = [b[1] for (a,b) in nltk.bigrams(brown_tagged) if a[0]=="often"]
fd = nltk.FreqDist(tags)
fd.tabulate()

自动标注

默认标注器

最简单的标注器是为每个标识符分配统一标记。下面就是一个将所有词都变成NN的标注器。并且用evaluate()进行检验。当很多词语是名词时候，它有利于第一次分析并提高稳定性。

brown_tagged_sents = brown.tagged_sents(categories="news")

raw = &#39;I do not like eggs and ham, I do not like them Sam I am&#39;tokens = nltk.word_tokenize(raw)
default_tagger = nltk.DefaultTagger(&#39;NN&#39;)#创建标注器print(default_tagger.tag(tokens)) # 调用tag()方法进行标注print(default_tagger.evaluate(brown_tagged_sents))

正则表达式标注器

注意这里规则是固定（由自己决定）。当规则越来越完善的时候，精确度越高。

patterns = [
    (r&#39;.*ing$&#39;,&#39;VBG&#39;),
    (r&#39;.*ed$&#39;,&#39;VBD&#39;),
    (r&#39;.*es$&#39;,&#39;VBZ&#39;),
    (r&#39;.*&#39;,&#39;NN&#39;)#为了方便，只有少量规则]
regexp_tagger = nltk.RegexpTagger(patterns)
regexp_tagger.evaluate(brown_tagged_sents)

查询标注器

这里和书里是有差别的，不同于python2，注意调试。而查询标注器就是存储最有可能的标记，并且可以设置backoff参数，不能标记的情况下，就使用这个标注器（这个过程是回退）

fd = nltk.FreqDist(brown.words(categories="news"))
cfd = nltk.ConditionalFreqDist(brown.tagged_words(categories="news"))##############################################python2和3的区别#########most_freq_words = fd.most_common(100)
likely_tags = dict((word,cfd[word].max()) for (word,times) in most_freq_words)#######################################################################baseline_tagger = nltk.UnigramTagger(model=likely_tags,backoff=nltk.DefaultTagger(&#39;NN&#39;))
baseline_tagger.evaluate(brown_tagged_sents)

N-gram标注

基础的一元标注器

一元标注器的行为和查找标注器很相似，建立一元标注器的技术，为训练。

这里我们的标注器只是记忆训练集，而不是建立一般模型，那么吻合很好，但是不能推广到新文本。

size = int(len(brown_tagged_sents)*0.9)
train_sents = brown_tagged_sents[:size]
test_sents = brown_tagged_sents[size+1:]
unigram_tagger = nltk.UnigramTagger(train_sents)
unigram_tagger.evaluate(test_sents)

一般的N-gram标注器

N元标注器，就是检索index= n 的 word，并且检索n-Nnltk.UnigramTagger()，自带的二元标注器为:nltk.BigramTagger()用法一致。

组合标注器

很多时候，覆盖范围更广的算法比精度更高的算法更有用。利用backoff指明回退标注器,来实现标注器的组合。而参数cutoff

t0 = nltk.DefaultTagger(&#39;NN&#39;)
t1 = nltk.UnigramTagger(train_sents,backoff=t0)
t2 = nltk.BigramTagger(train_sents,backoff=t1)
t2.evaluate(test_sents)

注釈コーパス

は注釈付きの識別子を示します: `nltk.tag.str2tuple('word/type')`

from nltk.tag import brill
brill.nltkdemo18plus()
brill.nltkdemo18()
注釈付きコーパスを読む

nltk corpus ue navel は統一されたインターフェイスを提供するため、さまざまなファイル形式を心配する必要はありません。形式: `Corpus.tagged_word()/tagged_sents()`。パラメーターはカテゴリとフィールドを指定できます

rrreee
名詞、動詞、形容詞など

例として名詞を示します

rrreee

🎜各名詞タイプで最も頻繁に使用される名詞を見つけてみてください🎜🎜rrreee🎜注釈付きコーパス 🎜🎜🎜 には、nltk.bigrams() と nltk.trigrams() が必要です。これらは、それぞれ 2 グラムモデルと 3 グラムモデルに対応します。。 🎜🎜🎜rrreee🎜🎜🎜自動タグ付け🎜🎜デフォルトのタグ付け🎜🎜🎜最も単純なタグ付けは、各識別子に均一のタグを割り当てます。以下は、すべての単語を NN に変換するタガーです。 evaluate() を使用して確認します。これにより、最初の分析が容易になり、多くの単語が名詞である場合の安定性が向上します。 🎜🎜🎜rrreee🎜🎜正規表現タグ付け🎜🎜🎜ここでのルールは固定されていることに注意してください（独自の判断による）。ルールが完成すればするほど精度は高くなります。 🎜🎜🎜rrreee🎜🎜クエリアノテーター🎜🎜🎜本との違いは、Python2とは異なる点です。クエリタガーには最も可能性の高いタグが保存され、タグをマークできない場合は、このタガーが使用されます (このプロセスはバックオフです) 🎜🎜。 🎜rrreee🎜🎜🎜N-gram アノテーション🎜🎜基本的な単項アノテーター🎜🎜🎜 単項アノテーターの動作は検索アノテーターと非常によく似ており、単項アノテーターを構築するためのテクノロジーはトレーニングされています。 🎜🎜ここでは、アノテーターは一般的なモデルを構築するのではなく、トレーニングセットを記憶するだけなので、一致は非常に良好ですが、新しいテキストに一般化することはできません。 🎜🎜🎜rrreee🎜🎜一般的な N グラムタガー🎜🎜🎜 N グラムタガーは、index= n の単語と n-Nnltk.UnigramTagger() と同様に、組み込みのバイナリタガーは nltk.BigramTagger() です。使用方法は一貫しています。 🎜🎜🎜複合タガー🎜🎜🎜 多くの場合、精度の高いアルゴリズムよりも、範囲が広いアルゴリズムの方が便利です。 backoff を使用して バックオフタガーを指定し、タガーの組み合わせを実現します。パラメータ cutoff が明示的に int 型として宣言されている場合、1 ～ n 回しか出現しないコンテキストは自動的に破棄されます。 🎜🎜🎜rrreee🎜🎜オリジナルと比較すると、精度が大幅に向上していることがわかります🎜🎜文境界注釈🎜🎜🎜文頭の単語については、最初のn単語がありません。解決策: タグ付きの tagged_sents を使用してタガーをトレーニングします。 🎜🎜🎜🎜変換ベースのアノテーション: Brill アノテーター 🎜🎜🎜 は上記よりも優れています。実装の考え方: 大きなストロークから始めて、細部を修正し、少しずつ細かい変更を加えます。 🎜少量のメモリを消費するだけでなく、状況に応じて、問題が静的ではなく小さくなるにつれてリアルタイムでエラーを修正します。もちろん、python3 と python2 では呼び出しが異なります。 🎜🎜🎜りー🎜🎜🎜🎜🎜

以上がNLTK 学習: 語彙の分類と注釈付けの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Python vs. C：曲線と使いやすさの学習Apr 19, 2025 am 12:20 AM

Pythonは学習と使用が簡単ですが、Cはより強力ですが複雑です。 1。Python構文は簡潔で初心者に適しています。動的なタイピングと自動メモリ管理により、使いやすくなりますが、ランタイムエラーを引き起こす可能性があります。 2.Cは、高性能アプリケーションに適した低レベルの制御と高度な機能を提供しますが、学習しきい値が高く、手動メモリとタイプの安全管理が必要です。

Python vs. C：メモリ管理とコントロールApr 19, 2025 am 12:17 AM

PythonとCは、メモリ管理と制御に大きな違いがあります。 1。Pythonは、参照カウントとガベージコレクションに基づいて自動メモリ管理を使用し、プログラマーの作業を簡素化します。 2.Cには、メモリの手動管理が必要であり、より多くの制御を提供しますが、複雑さとエラーのリスクが増加します。どの言語を選択するかは、プロジェクトの要件とチームテクノロジースタックに基づいている必要があります。

科学コンピューティングのためのPython：詳細な外観Apr 19, 2025 am 12:15 AM

科学コンピューティングにおけるPythonのアプリケーションには、データ分析、機械学習、数値シミュレーション、視覚化が含まれます。 1.numpyは、効率的な多次元配列と数学的関数を提供します。 2。ScipyはNumpy機能を拡張し、最適化と線形代数ツールを提供します。 3. Pandasは、データ処理と分析に使用されます。 4.matplotlibは、さまざまなグラフと視覚的な結果を生成するために使用されます。

PythonとC：適切なツールを見つけるApr 19, 2025 am 12:04 AM

PythonまたはCを選択するかどうかは、プロジェクトの要件に依存するかどうかは次のとおりです。1）Pythonは、簡潔な構文とリッチライブラリのため、迅速な発展、データサイエンス、スクリプトに適しています。 2）Cは、コンピレーションと手動メモリ管理のため、システムプログラミングやゲーム開発など、高性能および基礎となる制御を必要とするシナリオに適しています。

データサイエンスと機械学習のためのPythonApr 19, 2025 am 12:02 AM

Pythonは、データサイエンスと機械学習で広く使用されており、主にそのシンプルさと強力なライブラリエコシステムに依存しています。 1）Pandasはデータ処理と分析に使用され、2）Numpyが効率的な数値計算を提供し、3）SCIKIT-LEARNは機械学習モデルの構築と最適化に使用されます。これらのライブラリは、Pythonをデータサイエンスと機械学習に理想的なツールにします。

Pythonの学習：2時間の毎日の研究で十分ですか？Apr 18, 2025 am 12:22 AM

Pythonを1日2時間学ぶだけで十分ですか？それはあなたの目標と学習方法に依存します。 1）明確な学習計画を策定し、2）適切な学習リソースと方法を選択します。3）実践的な実践とレビューとレビューと統合を練習および統合し、統合すると、この期間中にPythonの基本的な知識と高度な機能を徐々に習得できます。

Web開発用のPython：主要なアプリケーションApr 18, 2025 am 12:20 AM

Web開発におけるPythonの主要なアプリケーションには、DjangoおよびFlaskフレームワークの使用、API開発、データ分析と視覚化、機械学習とAI、およびパフォーマンスの最適化が含まれます。 1。DjangoandFlask Framework：Djangoは、複雑な用途の迅速な発展に適しており、Flaskは小規模または高度にカスタマイズされたプロジェクトに適しています。 2。API開発：フラスコまたはdjangorestFrameworkを使用して、Restfulapiを構築します。 3。データ分析と視覚化：Pythonを使用してデータを処理し、Webインターフェイスを介して表示します。 4。機械学習とAI：Pythonは、インテリジェントWebアプリケーションを構築するために使用されます。 5。パフォーマンスの最適化：非同期プログラミング、キャッシュ、コードを通じて最適化

Python vs. C：パフォーマンスと効率の探索Apr 18, 2025 am 12:20 AM

Pythonは開発効率でCよりも優れていますが、Cは実行パフォーマンスが高くなっています。 1。Pythonの簡潔な構文とリッチライブラリは、開発効率を向上させます。 2.Cのコンピレーションタイプの特性とハードウェア制御により、実行パフォーマンスが向上します。選択を行うときは、プロジェクトのニーズに基づいて開発速度と実行効率を比較検討する必要があります。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

ホットトピック

Gmailメールのログイン入り口はどこですか？

7563

CakePHP チュートリアル

1385

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

NLTK 学習: 語彙の分類と注釈付け

品詞タグ付け

标注语料库

表示已经标注的标识符:`nltk.tag.str2tuple('word/类型')`

读取已经标注的语料库

名词、动词、形容词等

尝试找出每个名词类型中最频繁的名词

探索已经标注的语料库

自动标注

默认标注器

正则表达式标注器

查询标注器

N-gram标注

基础的一元标注器

一般的N-gram标注器

组合标注器

は注釈付きの識別子を示します: `nltk.tag.str2tuple('word/type')`

nltk corpus ue navel は統一されたインターフェイスを提供するため、さまざまなファイル形式を心配する必要はありません。形式: `Corpus.tagged_word()/tagged_sents()`。パラメーターはカテゴリとフィールドを指定できます

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SecLists

PhpStorm Mac バージョン

AtomエディタMac版ダウンロード

ZendStudio 13.5.1 Mac

ホットトピック

NLTK 学習: 語彙の分類と注釈付け

品詞タグ付け

标注语料库

表示已经标注的标识符:nltk.tag.str2tuple('word/类型')

读取已经标注的语料库

名词、动词、形容词等

尝试找出每个名词类型中最频繁的名词

探索已经标注的语料库

自动标注

默认标注器

正则表达式标注器

查询标注器

N-gram标注

基础的一元标注器

一般的N-gram标注器

组合标注器

は注釈付きの識別子を示します: nltk.tag.str2tuple('word/type')

nltk corpus ue navel は統一されたインターフェイスを提供するため、さまざまなファイル形式を心配する必要はありません。形式: Corpus.tagged_word()/tagged_sents()。パラメーターはカテゴリとフィールドを指定できます

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SecLists

PhpStorm Mac バージョン

AtomエディタMac版ダウンロード

ZendStudio 13.5.1 Mac

ホットトピック

表示已经标注的标识符:`nltk.tag.str2tuple('word/类型')`

は注釈付きの識別子を示します: `nltk.tag.str2tuple('word/type')`

nltk corpus ue navel は統一されたインターフェイスを提供するため、さまざまなファイル形式を心配する必要はありません。形式: `Corpus.tagged_word()/tagged_sents()`。パラメーターはカテゴリとフィールドを指定できます