ホームページ  >  記事  >  テクノロジー周辺機器  >  テキスト分類とは何ですか?

テキスト分類とは何ですか?

PHPz
PHPz転載
2023-05-23 21:16:041807ブラウズ

翻訳者 | Li Rui

査読者 | Sun Shujuan

テキスト分類とは何ですか?

テキスト分類は、テキストを 1 つ以上の異なるカテゴリに分類し、整理、構造化し、任意のパラメータにフィルタリングするプロセスです。たとえば、テキスト分類は、法律文書、医学研究および文書、または単に製品レビューで使用されます。データの重要性はこれまで以上に高まっており、多くの企業ができる限り多くの洞察を得るために巨額の資金を費やしています。

テキスト/ドキュメント データが他のデータ タイプよりもはるかに豊富になっているため、新しいメソッドの使用が不可欠です。データは本質的に構造化されておらず、非常に豊富であるため、データを理解できるようにわかりやすい方法で整理することで、その価値を大幅に高めることができます。テキスト分類と機械学習を使用して、関連するテキストをより迅速かつコスト効率よく自動的に構築します。

以下では、テキスト分類、その仕組み、最もよく知られているアルゴリズムのいくつかを定義し、テキスト分類の取り組みを開始する際に役立つデータセットを提供します。

なぜ機械学習テキスト分類を使用するのでしょうか?

  • スケール: 手動でのデータ入力、分析、整理は面倒で時間がかかります。機械学習により、データセットのサイズに関係なく自動分析が可能になります。
  • 一貫性: 人的エラーは、担当者の疲労やデータセット内の内容に対する鈍感によって発生します。機械学習は、アルゴリズムの偏りのない一貫した性質により、スケーラビリティを高め、精度を大幅に向上させます。
  • スピード: データに素早くアクセスして整理する必要がある場合があります。機械学習アルゴリズムはデータを解析し、わかりやすい方法で情報を提供できます。

6 一般的な手順

テキスト分類とは何ですか?

いくつかの基本的な方法では、さまざまなテキスト ドキュメントをある程度まで分類できますが、最も一般的に使用される方法は機械学習です。テキスト分類モデルは、展開する前に 6 つの基本的な手順を実行する必要があります。

1. 高品質のデータ セットを提供する

データセットは、モデルのデータ ソースとして使用される生のデータ ブロックです。テキスト分類の場合、教師あり機械学習アルゴリズムが使用され、ラベル付きデータが機械学習モデルに提供されます。ラベル付きデータは、アルゴリズムに対して事前定義され、情報のラベルが付けられたデータです。

2. データのフィルタリングと処理

機械学習モデルは数値のみを理解できるため、モデルがデータを正しく識別できるように、提供されたテキストをトークン化してテキストを埋め込む必要があります。

トークン化は、テキスト ドキュメントをトークンと呼ばれる小さな部分に分割するプロセスです。トークンは、単語全体、サブワード、または個々の文字として表すことができます。たとえば、次のように作品をよりインテリジェントにタグ付けできます。

  • タグ単語: Smarter
  • タグサブワード: Smart-er
  • タグ文字: S-m-a-r-t-e-r

なぜトークン化が重要なのでしょうか?テキスト分類モデルはトークンベースのレベルでしかデータを処理できず、完全な文を理解して処理できないためです。このモデルでは、指定されたデータを簡単に消化するために、指定された生データ セットをさらに処理する必要があります。不要な機能を削除したり、null 値や無限値を除外したりできます。データセット全体を再構成すると、トレーニング段階での偏りを防ぐことができます。

3. データ セットをトレーニング データ セットとテスト データ セットに分割します

データ セットの 80% でデータをトレーニングし、データ セットの 20% をテスト用に保持したいと考えています。アルゴリズムの精度。

4. トレーニング アルゴリズム

トレーニング データセットを使用してモデルを実行すると、アルゴリズムは隠れたパターンと洞察を特定して、提供されたテキストをさまざまなカテゴリに分類できます。

5. モデルのパフォーマンスをテストして確認する

次に、ステップ 3 で説明したテスト データ セットを使用してモデルの整合性をテストします。実際の結果に対してモデルの精度をテストするために、テスト データセットにはラベルが付けられません。モデルを正確にテストするには、モデルの過剰適合を避けるために、テスト データ セットに新しいテスト ケース (以前のトレーニング データ セットとは異なるデータ) が含まれている必要があります。

6. モデルのチューニング

過剰適合したり、大きな分散を生成したりすることなく、モデルのさまざまなハイパーパラメーターを調整することで、機械学習モデルをチューニングします。ハイパーパラメータは、その値がモデルの学習プロセスを制御するパラメータです。これで、デプロイする準備が整いました。

テキスト分類はどのように機能しますか?

単語埋め込み

上記のフィルタリング プロセス中、機械学習アルゴリズムと深層学習アルゴリズムは数値しか理解できないため、開発者はデータ セットに対していくつかの単語埋め込み手法を実行する必要があります。単語の埋め込みは、特定の単語の意味をエンコードする実数値ベクトルとして単語を表すプロセスです。

  • Word2Vec: これは、Google が開発した教師なしの単語埋め込み手法です。ニューラル ネットワークを利用して大規模なテキスト データセットから学習します。名前が示すように、Word2Vec メソッドは各単語を指定されたベクトルに変換します。
  • GloVe: グローバル ベクトルとしても知られ、単語のベクトル表現を取得するために使用される教師なし機械学習モデルです。 Word2Vec メソッドと同様に、GloVe アルゴリズムは単語を意味のある空間にマッピングします。単語間の距離は意味の類似性に関係します。
  • TF-IDF: TF-IDF は、Term Frequency-Inverse Text Frequency の略称で、特定の文書内の単語の重要性を評価するために使用される単語埋め込みアルゴリズムです。 TF-IDF は、各単語に所定のスコアを割り当てて、一連の文書内でのその重要性を表します。

テキスト分類アルゴリズム

次に、最も有名で効果的な 3 つのテキスト分類アルゴリズムを示します。各メソッドにはさらに定義されたアルゴリズムが埋め込まれていることに留意することが重要です。

1. 線形サポート ベクター マシン

線形サポート ベクター マシン アルゴリズムは、現時点で最高のテキスト分類アルゴリズムの 1 つであると考えられており、指定された特徴に従って指定されたデータ ポイントを描画します。次に、データをカテゴリに分割して並べ替える最適な線を描きます。

テキスト分類とは何ですか?

2. ロジスティック回帰

ロジスティック回帰は回帰のサブカテゴリであり、主に分類問題に焦点を当てています。決定境界、回帰、距離を使用してデータセットを評価および分類します。

テキスト分類とは何ですか?

3. ナイーブ ベイズ

ナイーブ ベイズ アルゴリズムは、オブジェクトによって提供される特徴に基づいてさまざまなオブジェクトを分類します。次に、さらなる解決と分類のためにこれらのグループ分類を推測するためにグループの境界が描かれます。

テキスト分類とは何ですか?

テキスト分類を設定する際に避けるべき問題

1. 過密なトレーニング データ

低品質のデータをアルゴリズムに提供する不適切な将来予測につながります。機械学習の実践者にとってよくある問題は、トレーニング モデルに供給されるデータセットが多すぎて、不要な特徴が含まれていることです。無関係なデータを過度に使用すると、モデルのパフォーマンスの低下につながります。データセットの選択と整理に関しては、少ないほど良いのです。

トレーニング データとテスト データの比率が正しくないと、モデルのパフォーマンスに大きな影響を及ぼし、データのシャッフルやフィルタリングに影響を与える可能性があります。正確なデータ ポイントは他の望ましくない要因によって干渉されず、トレーニングされたモデルはより効率的に実行されます。

モデルをトレーニングするときは、モデルの要件を満たすデータ セットを選択し、不要な値をフィルターし、データ セットをシャッフルして、最終モデルの精度をテストします。アルゴリズムが単純であればあるほど、必要な計算時間とリソースが少なくなり、複雑な問題を解決できる最も単純なモデルが最適なモデルとなります。

2. 過学習と過小学習

トレーニングがピークに達すると、トレーニングが継続するにつれてモデルの精度が徐々に低下します。これは過学習と呼ばれます。トレーニングが長すぎるため、モデルは予期しないパターンを学習し始めます。主な目標は、精度がテスト セット (モデルがこれまでに見たことのないデータ) に根ざしたモデルを開発することであるため、トレーニング セットで高い精度を達成する場合は注意してください。

一方、アンダーフィッティングとは、トレーニング モデルにまだ改善の余地があり、その可能性がまだ最大に達していないことを意味します。モデルのトレーニングが不十分な場合は、トレーニングの長さまたはデータセットの過剰な正則化が原因で発生します。これは、簡潔で正確なデータを持つことが何を意味するかを例示しています。

モデルをトレーニングする場合、スイート スポットを見つけることが重要です。データセットを 80/20 に分割するのは良いスタートですが、特定のモデルが最適に実行するために必要なのはパラメーターの調整かもしれません。

3. 不適切なテキスト形式

この記事では詳しく説明しませんが、テキスト分類問題に正しいテキスト形式を使用すると、より良い結果が得られます。テキスト データを表現する方法には、GloVe、Word2Vec、埋め込みモデルなどがあります。

正しいテキスト形式を使用すると、モデルがデータセットを読み取って解釈する方法が改善され、パターンを理解するのに役立ちます。

テキスト分類アプリケーション

テキスト分類とは何ですか?

  • スパムのフィルター: 特定のキーワードを検索することで、電子メールを有益なメールまたはスパムとして分類できます。
  • テキスト分類: テキスト分類を使用すると、アプリケーションは関連するテキスト (項目名や説明など) を分類することで、さまざまな項目 (記事、書籍など) をさまざまなカテゴリに分類できます。これらの手法を使用すると、ユーザーがデータベース内を簡単に移動できるようになるため、エクスペリエンスが向上します。
  • ヘイトスピーチの特定: 一部のソーシャルメディア企業は、テキスト分類を使用して攻撃的なコメントや投稿を検出し、禁止しています。
  • マーケティングと広告: 企業は、特定の製品に対するユーザーの反応を理解することで、顧客を満足させるために具体的な変更を加えることができます。また、同様の製品のユーザーレビューに基づいて特定の製品を推奨することもできます。テキスト分類アルゴリズムは、リピート ビジネスを獲得するために多くのオンライン Web サイトで使用されるもう 1 つの深層学習アルゴリズムであるレコメンダー システムと組み合わせて使用​​できます。

人気のテキスト分類データセット

ラベル付きのすぐに使用できるデータセットが多数あるため、モデルの要件を満たす完璧なデータセットをいつでも検索できます。

どれを使用するかを決定するのに問題があるかもしれませんが、一般に公開されている最も有名なデータセットのいくつかを以下に推奨します。

  • IMDB データセット
  • Amazon レビュー データセット
  • Yelp レビュー データセット
  • SMS スパム コレクション
  • Opin Rank レビュー データセット
  • Twitter 米国航空会社感情データセット
  • ヘイト スピーチおよび攻撃的言語データセット
  • クリックベイト データセット

Kaggle のような Web サイトには、すべてのトピックをカバーするさまざまなデータセットが含まれています。練習のために、上記のデータ セットのいくつかでモデルを実行してみることができます。

機械学習におけるテキスト分類

機械学習は過去 10 年間に多大な影響を及ぼしてきたため、企業は機械学習を活用してプロセスを自動化するためにあらゆる方法を試みています。レビュー、投稿、記事、日記、文書はすべてテキストに含まれており、非常に貴重です。また、テキスト分類をさまざまな創造的な方法で使用してユーザーの洞察やパターンを抽出することにより、企業はデータに基づいた意思決定を行うことができ、専門家はこれまでよりも迅速に貴重な情報にアクセスして学ぶことができます。

原題: テキスト分類とは? 、著者: Kevin Vu

以上がテキスト分類とは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。