ホームページ >テクノロジー周辺機器 >AI >知識の抽出について話しましょう。学習しましたか?

知識の抽出について話しましょう。学習しましたか?

PHPz転載: 2023-11-13 20:13:02842ブラウズ

1. はじめに

知識の抽出とは通常、豊富な意味情報を含むタグやフレーズなどの非構造化テキストから構造化情報をマイニングすることを指します。これは、コンテンツ理解や製品理解などのシナリオで業界で広く使用されています。ユーザーが作成したテキスト情報から価値のあるタグを抽出することで、コンテンツや製品に適用されます。

知識の抽出には、通常、分類が伴います。抽出されたタグまたはフレーズの抽出は、通常、固有表現認識タスクとしてモデル化されます。一般的な固有表現認識タスクは、固有表現コンポーネントを識別し、コンポーネントを地名、人名、組織名などに分類することです。ドメイン関連のタグ単語の抽出は、 will タグワードは識別され、シリーズ (Air Force One、Sonic 9)、ブランド (Nike、Li Ning)、タイプ (靴、衣類、デジタル)、スタイル (INS スタイル、レトロスタイル、北欧風））待ってください。

説明の便宜上、以下では情報量の多いタグやフレーズを総称してタグワードと呼びます

2.知識抽出分類

この記事はタグワードから始まりますマイニングとタグワード古典的な知識抽出手法を 2 つの観点から紹介します。タグワードマイニング手法は、図 1 に示すように、教師なし手法、教師あり手法、および遠隔監視手法に分類されます。タグ単語マイニングは、候補単語マイニングとフレーズスコアリングの 2 つのステップを通じて高スコアのタグ単語を選択します。タグ単語分類は通常、タグ単語の抽出と分類を共同でモデル化し、それを固有表現認識のためのシーケンスアノテーションタスクに変換します。

知識の抽出について話しましょう。学習しましたか? #図 1 知識抽出手法の分類

3. タグワードマイニング

教師なし手法

#統計ベースの方法

最初に文書をセグメント化するか、セグメント化された単語を候補単語として N グラムに結合します。統計的特徴に基づいて候補単語をスコアリングします。

TF-IDF (Term Frequency-Inverse Document Frequency): 各単語の TF-IDF スコアをカウントし、スコアが高いほど含まれる情報量が多くなります。

書き換えた内容: 計算方法: tfidf(t, d, D) = tf(t, d) * idf(t, D)、ここで tf(t, d) = log (1 freq) (t, d))、freq(t,d) は、現在の文書 d に候補単語 t が出現する回数を表します。idf(t,D) = log(N/count(d∈D:t∈D) )候補単語 t がいくつの文書に出現するかを示し、単語の希少性を示すために使用されます。単語が 1 つの文書にのみ出現する場合、その単語はまれであり、より多くの情報があることを意味します。

Specificビジネスこのシナリオでは、外部ツールを使用して、品詞タグを使用して名詞をスクリーニングするなど、候補単語の最初のスクリーニングを実行できます。

YAKE[1]: キーワードの特徴を捉えるために 5 つの特徴が定義されており、これらの特徴がヒューリスティックに組み合わされて各キーワードにスコアが割り当てられます。スコアが低いほど、キーワードの重要性が高くなります。 1) 大文字: 大文字の用語 (各文の先頭の単語を除く) は、中国語の太字の単語の数に対応して、小文字の用語よりも重要です; 2) 単語の位置: テキストの各段落の一部の単語先頭は後続の単語よりも重要です; 3) 単語の頻度、単語の出現頻度をカウントします; 4) 単語のコンテキスト、固定ウィンドウサイズの下で表示される異なる単語の数を測定するために使用されます。発生するほど、単語の重要性は低くなります; 5) 単語がさまざまな文に出現する回数が多く、単語がより多くの文に出現するほど、その単語の重要性は高くなります。

#グラフベースのモデル

TextRank[2]: まず単語の分割と品詞を実行します。テキスト注釈を付けてストップワードを除外し、指定された品詞を持つ単語のみを残してグラフを作成します。各ノードは単語であり、エッジは単語間の関係を表し、所定のサイズの移動ウィンドウ内で単語の共起を定義することによって構築されます。 PageRank を使用して、収束するまでノードの重みを更新します。ノードの重みを逆順に並べ替えて、最も重要な k 個の単語を候補キーワードとして取得します。元のテキストで候補単語をマークし、隣接するフレーズを形成する場合は、それらを複数のキーワードに結合します。フレーズにはフレーズ。

#表現ベースのメソッド埋め込みベースのモデル

表現ベースのメソッドは、候補単語とドキュメントのランク間のベクトル類似度を計算します。候補の言葉。

EmbedRank[3]: 単語分割と品詞タグ付けを通じて候補単語を選択し、事前トレーニング済みの Doc2Vec と Sent2vec を候補単語とドキュメントのベクトル表現として使用し、コサイン類似度を計算してランク付けします。候補の言葉。同様に、KeyBERT[4] は、EmbedRank のベクトル表現を BERT に置き換えます。

#教師付きメソッド

教師ありメソッドは、モデルをトレーニングすることによって、候補単語がラベル単語に属するかどうかを計算します。

最初に候補単語をスクリーニングし、次にタグ単語分類を使用します。古典的なモデル KEA[5] は、分類器としてナイーブベイズを使用して、4 つの設計された特徴について N グラム候補単語をスコア付けします。
候補単語スクリーニングとタグ単語認識の共同トレーニング: BLING-KPE[6] は元の文を入力として受け取り、CNN と Transformer を使用して文の N グラムフレーズをエンコードし、フレーズがはタグ単語の確率であり、ラベル単語が手動でラベル付けされているかどうかを示します。 BERT-KPE[7] BLING-KPE のアイデアに基づいて、ELMO は文のベクトルをより適切に表現するために BERT に置き換えられます。

知識の抽出について話しましょう。学習しましたか? #図 2 BLING-KPE モデル構造

遠方監視方法

AutoPhrase

遠隔監視手法の代表的なものは AutoPhrase [10] であり、業界でタグワードマイニングに広く使用されています。 AutoPhrase は、既存の高品質のナレッジベースを使用してリモートで教師付きトレーニングを実施し、手動による注釈を回避します。この記事では、次の 4 つの条件が同時に満たされた場合に、完全な意味を持つ単語を高品質フレーズと定義します。

一致度: トークンの連語の頻度は、置換後の他の連語の頻度、つまり共起の頻度よりもはるかに高い;
情報性: 有益で明確、「this "is" などは、情報のない否定的な例です。
完全性: フレーズとそのサブフレーズには完全性が必要です。

AutoPhrase タグマイニングプロセスを図 3 に示します。まず、品詞タグ付けを使用して、高頻度の N グラム単語を候補としてスクリーニングします。次に、遠隔監視を通じて候補単語を分類します。最後に、上記の 4 つの条件を使用して、高品質のフレーズをフィルタリングします (フレーズ品質の再推定)

知識の抽出について話しましょう。学習しましたか? 図 3 AutoPhrase タグマイニングプロセス

From外部知識ライブラリは高品質のフレーズをポジティブプールとして取得し、その他のフレーズをネガティブ例として取得します論文の実験統計によると、ネガティブ例プールにはネガティブに分類されない高品質フレーズの10%が存在します例はナレッジベースにあるため、この論文では次の方法を使用します。図 4 に示すランダムフォレストアンサンブル分類器は、分類に対するノイズの影響を軽減します。産業用途では、分類器トレーニングでは、事前トレーニングモデル BERT [13] に基づいた文間関係タスクの 2 分類法を使用することもできます。

知識の抽出について話しましょう。学習しましたか? 図 4 AutoPhrase のタグ語分類方法

4. タグ語分類

教師あり手法

NER シーケンスアノテーションモデル

固有表現認識 (NER) も、候補語のスクリーニングとラベル語の認識を共同でトレーニングするラベル抽出手法であり、通常、文の情報量が比較的少ないシナリオを対象としています。文中のエンティティコンポーネントを識別するために、シーケンスアノテーションモデルを使用して実装されます。文を入力として、文中の各トークンが次のラベルに属する確率を予測します: B (開始)-LOC (地名)、I (内側)-LOC (地名)、E (終了)-LOC (地名）、O（その他）など。「-」の後にはその実体語が属するカテゴリが続きます。中国語の NER タスクでは、中国語の単語の分割によって引き起こされる誤送信の問題を回避するために、シーケンスアノテーションモデリングに通常、語彙ベースではなく文字ベースの方法が使用されます。そのため、エンティティの単語の境界を強化するために語彙情報を導入する必要があります。

Lattice LSTM[8] は中国語 NER タスクに語彙情報を導入した最初の作品です. Lattice は有向非巡回グラフです. 語彙の開始文字と終了文字がグリッドの位置を決定します. 語彙情報 (辞書) を通じて) 文をマッチングすると、図 5(a) に示すように、格子状の構造が得られます。 Lattice LSTM 構造は、5(b) に示すように、語彙情報をネイティブ LSTM に融合します。現在の文字については、その文字で終わるすべての外部辞書情報が融合されます。たとえば、「store」は「人々とドラッグストア」を融合し、「薬局」の情報です。 Lattice LSTM は、文字ごとにアテンションメカニズムを使用して、可変数の単語単位を融合します。 Lattice-LSTM は NER タスクのパフォーマンスを効果的に向上させますが、RNN 構造は長距離の依存関係をキャプチャできず、語彙情報の導入には損失が伴います。同時に、動的な Lattice 構造は GPU 並列処理を完全には実行できません。Flat[9] モデルこれら 2 つの質問を効果的に改善しました。図 5(c) に示すように、フラットモデルは、Transformer 構造を通じて長距離の依存関係をキャプチャし、Lattice 構造を統合する位置エンコーディングを設計します。文字が一致する単語を文につなぎ合わせた後、各文字と単語は 2 つ構成されます。ヘッド位置エンコーディングとテール位置エンコーディングは、格子構造を有向非巡回グラフからフラットなフラット格子トランスフォーマー構造に平坦化します。

知識の抽出について話しましょう。学習しましたか? #図 5 語彙情報を導入した NER モデル

遠方監視手法

#AutoNER

AutoNER[11] は、外部辞書を使用して、遠隔監視エンティティ認識用のトレーニングデータを構築します。最初にエンティティ境界認識 (エンティティスパン認識) を実行し、次にエンティティ分類 (エンティティ分類) を実行します。。外部辞書の構築では、外部ナレッジベースを直接使用することも、AutoPhrase マイニングメソッドを使用して最初にオフラインタグワードマイニングを実行し、次に AutoNER モデルを使用してタグワードを段階的に更新することもできます。

遠隔監視におけるノイズ問題を解決するために、BIOE ラベル付け方法の代わりに Tie or Break のエンティティ境界識別スキームを使用します。このうち、Tie は現在の単語と前の単語が同じエンティティに属することを意味し、Break は現在の単語と前の単語が同じエンティティに属さないことを意味します。これに対処するのが Fuzzy CRF であり、1 つのエンティティに複数の型が存在します