TF-IDF とコサイン類似度を使用してテキストの類似性を測定するにはどうすればよいですか?-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

TF-IDF とコサイン類似度を使用してテキストの類似性を測定するにはどうすればよいですか?

Mary-Kate Olsen

Oct 23, 2024 am 06:53 AM

How to Measure Text Similarity using TF-IDF and Cosine Similarity?

TF-IDF とコサイン類似度によるテキストの類似性の測定

2 つのテキスト文書間の類似性の判定は、テキストマイニングと情報において重要なタスクです検索。一般的なアプローチの 1 つは、TF-IDF (用語周波数-逆文書周波数) と コサイン類似度 を利用することです。

TF-IDF は重みを割り当てます。文書内の各単語は、その文書内の頻度と文書コーパス全体での希少性に基づいて決定されます。類似した単語パターンを持つドキュメントは、より高い TF-IDF ベクトルを共有します。

コサイン類似度 は 2 つのベクトル間の角度を測定し、0 (類似性なし) と 1 (完全な類似性) の間の値を提供します。この例では、2 つのドキュメントの TF-IDF ベクトルがこれらのベクトルを形成し、コサイン類似度によってそれらの角度が定量化されます。

Python の実装

Python では、 scikit-learn および Gensim パッケージでは、ペアごとの類似性の計算は簡単です:

<code class="python">from sklearn.feature_extraction.text import TfidfVectorizer

documents = [open(f).read() for f in text_files]
tfidf = TfidfVectorizer().fit_transform(documents)
pairwise_similarity = tfidf * tfidf.T</code>

または、ドキュメントがすでに文字列である場合は、次を使用します:

<code class="python">corpus = ["I'd like an apple", "An apple a day keeps the doctor away", "..."]
vect = TfidfVectorizer(min_df=1, stop_words="english")
tfidf = vect.fit_transform(corpus)
pairwise_similarity = tfidf * tfidf.T</code>

結果の解釈

pairwise_similarity は、各ドキュメントペア間の類似性を表すスパース行列です。特定のドキュメントに最も類似したドキュメントを見つけるには、ドキュメント自体との類似性をマスクし (NaN に設定し)、np.nanargmax():

<code class="python">import numpy as np

arr = pairwise_similarity.toarray()
np.fill_diagonal(arr, np.nan)
input_doc = "The scikit-learn docs are Orange and Blue"
input_idx = corpus.index(input_doc)
result_idx = np.nanargmax(arr[input_idx])
similar_doc = corpus[result_idx]</code>

その他の考慮事項

大規模なコーパスや語彙の場合、NumPy 配列に変換するよりもスパース行列を使用する方が効率的です。

最小ドキュメントの min_df など、TfidfVectorizer のパラメーターを調整することで、

追加リソース

[Gensim を使用したペアワイズ類似度の計算](https://stackoverflow.com/questions/23752770/computing- gensim とのペアワイズ類似点)

以上がTF-IDF とコサイン類似度を使用してテキストの類似性を測定するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

数値データを保存するためのリストよりも一般的にメモリ効率が高いのはなぜですか？May 05, 2025 am 12:15 AM

AlaySaregenerallymorememory-effictient forstring forstring inumericaldataduetotheirfixed-sizenature anddirectmoryaccess.1）AraysstoreElementsinaCourowlock、Reducingoverheadfrompointertersormetadata.2）リスト

PythonリストをPythonアレイに変換するにはどうすればよいですか？May 05, 2025 am 12:10 AM

ToconvertaPythonlisttoanarray,usethearraymodule:1)Importthearraymodule,2)Createalist,3)Usearray(typecode,list)toconvertit,specifyingthetypecodelike'i'forintegers.Thisconversionoptimizesmemoryusageforhomogeneousdata,enhancingperformanceinnumericalcomp

同じPythonリストに異なるデータ型を保存できますか？例を挙げてください。May 05, 2025 am 12:10 AM

Pythonリストは、さまざまな種類のデータを保存できます。サンプルリストには、整数、文字列、フローティングポイント番号、ブール膜、ネストされたリスト、辞書が含まれています。リストの柔軟性は、データ処理とプロトタイピングにおいて価値がありますが、コードの読みやすさと保守性を確保するためには注意して使用する必要があります。

Pythonの配列とリストの違いは何ですか？May 05, 2025 am 12:06 AM

Pythondoesnothavebuiltinarays; usethearmoduleformemory-efficienthogeneousdatastorage、while-lelistSareversatileformixeddatypes.Arraysareeffientive for forlardatedateSetsetype、wheneasofferistofibuliestibuliestuseduseerieartusedoersorerdatatess。

Pythonで配列を作成するために一般的に使用されるモジュールは何ですか？May 05, 2025 am 12:02 AM

sostCommonlylysedModule forcreatinginpythonisnumpy.1）numProvidesefficientToolsForArrayoperations、理想的なfornumericaldata.2）arrayscanbecreatedusingnp.array（）for1dand2dstructures.3）

Pythonリストに要素をどのように追加しますか？May 04, 2025 am 12:17 AM

toAppendElementStoapyThonList、usetheappend（）methodforsingleelements、extend（）formultipleElements、andinsert（）forspecificopsitions.1）useappend（）foraddingoneElementatheend.2）useextend（）toaddmultipleelementseffictience.3）

Pythonリストをどのように作成しますか？例を挙げてください。May 04, 2025 am 12:16 AM

To CreateapythonList、usesquareBrackets []およびSeparateItemswithcommas.1）listsaredynamicandcanholdmixdatatypes.2）useappend（）、remaid（）、andslicingformanipulation.3）listcompreheNsionsionsionsionsionsionsionsionsionsionsionsionsionsionsionsionsionsientionforcreating.4）

数値データの効率的なストレージと処理が重要な実際のユースケースについて話し合います。May 04, 2025 am 12:11 AM

金融、科学研究、医療、およびAIの分野では、数値データを効率的に保存および処理することが重要です。 1）財務では、メモリマッピングされたファイルとnumpyライブラリを使用すると、データ処理速度が大幅に向上する可能性があります。 2）科学研究の分野では、HDF5ファイルはデータストレージと取得用に最適化されています。 3）医療では、インデックス作成やパーティション化などのデータベース最適化テクノロジーがデータのパフォーマンスを向上させます。 4）AIでは、データシャーディングと分散トレーニングがモデルトレーニングを加速します。システムのパフォーマンスとスケーラビリティは、適切なツールとテクノロジーを選択し、ストレージと処理速度の間のトレードオフを検討することにより、大幅に改善できます。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。