ホームページ > 記事 > テクノロジー周辺機器 > 言語学者が帰ってきた! 「発音」から学習を開始:今回はAIモデルが自ら学習する必要がある
コンピュータに人間の言語を理解させようとすることは、人工知能の分野において常に克服できない困難でした。
初期の自然言語処理モデルは通常、人為的に設計された機能を使用しており、専門の言語学者が手動でパターンを記述する必要がありましたが、最終的な結果は理想的なものではなく、AI 研究ですら寒い冬に陥ったこともありました。
言語学者を解雇するたびに、音声認識システムの精度が向上します。
言語学者を解雇するたびに、音声認識装置のパフォーマンスが向上します。
——Frederick Jelinek
統計モデルと大規模な事前分析を使用すると、トレーニング モデルの構築後は、特徴抽出は必要なくなりますが、指定されたタスクに対するデータの注釈は依然として必要であり、最も重要な問題は、トレーニングされたモデルがまだ人間の言語を理解していないことです。
# そこで、言語の原形から出発して、人間はどのようにして言語能力を獲得したのかを学び直してはいかがでしょうか。
コーネル大学、MIT、マギル大学の研究者らは最近、人間の言語の最も基本的な部分、つまり形態音韻論が AI に教え始めたアルゴリズム合成モデルのフレームワークを提案する論文を Nature Communications に発表しました。言語を学び、音から直接言語の形態を構築すること。
論文リンク: https://www.nature.com/articles/s41467-022-32012-w
形態論と音韻論は言語学の 1 つです。このブランチは、形態素 (意味の最小単位) が単語に結合されるときに発生する音の変化に焦点を当て、言語における音素の規則的な音の変化を予測するための一連のルールを提供しようとします。
たとえば、英語の複数形態素は -s または -es と表記されますが、発音は [s]、[z]、[ƙz] の 3 つがあります。たとえば、cat の発音は /kæts です。 /、犬の発音は/dagz/、馬の発音は/hɔrsƙz/です。
人間が複数の発音を変換することを学ぶとき、最初に形態論に基づいて複数の接尾辞が実際には /z/ であることに気づき、次に音韻論に基づいて接尾辞が語幹の発音に基づいていることに気づきます。無声子音などは /s/ または /raisez/ に変換されます
他の言語にも同じ音素および形態学的規則があります。 58 言語の教科書 70 のデータセットが収集され、それぞれに数十から数百の単語とわずかな文法現象しか含まれていませんでしたが、実験により、自然言語の文法構造を見つける方法が幼児の言語学習プロセスをシミュレートできることが示されました。
これらの言語データセットに対して階層ベイズ推論を実行することで、研究者らは、モデルが 1 つまたは少数の例から新しい形態音素ルールを取得でき、共通の言語間パターンを抽出してコンパクトに表現できることを発見しました。 、人間が理解できる形式。
人間の知性は主に、認知世界の理論を確立する能力に反映されます。たとえば、自然言語の形成後、言語学者は、子どもたちが特定の言語をより早く学習できるようにするための一連のルールを要約しましたが、現在の AI モデルはルールを要約して他の人が理解できる理論的枠組みを形成することができません。
モデルを構築する前に、「単語をどのように説明するか」という中核的な問題を解決する必要があります。たとえば、単語の学習プロセスには、単語の概念、意図、用法、発音、意味の理解が含まれます。言葉。
研究者らは語彙を構築する際、各単語を のペアとして表現しました。たとえば、オープンは εn/, [stem: OPEN]>、過去時制は /, [tense: PAST]>、結合されたオープンは と表現されます。として ## # ############
データセットを取得した後、研究者らは単語の変化を説明するための最大事後確率推論を通じて、ペアセットのセットに対する文法規則の生成を説明するモデルを確立しました。
音の表現では、音素 (原子音) は、鼻音である /m/、/n/ などのバイナリ特徴のベクトルとして表現されます。次に、特徴空間に基づいて音声規則が定義されます。
研究者らは、古典的なルール表現方法、つまり、英語の音パターンの表現に広く使用されている、SPE スタイル ルールとも呼ばれる文脈依存記憶を使用しています。
(focus)→(structural_change)/(left_trigger)_(right_trigger) となり、左右のトリガー環境が近い限り、フォーカスの左/右、フォーカスの音素は構造変化に従って変換されます。
トリガー環境は、(音素のセットを表す) 特徴の接続を指定します。たとえば、英語では、左側の音素が [-sonorant] である限り、の場合、語尾の発音は /d/ から /t/ となり、表記規則は [-sonorant] → [-voice]/[-voice -sonorant]_# となります。歩くとこのルールが適用され、発音は /wɔkd/ から /wɔkt/ に変わります。
そのようなルールがそれ自体の出力に循環的に適用されないように制約されている場合、ルールと語彙は 2 方向有理関数に対応し、さらに有限状態コンバーター (状態変換) に対応します。有限状態コンバータの空間は、形態音声学における既知の経験的現象をカバーするのに十分な表現力を持ち、音声理論の実際の使用における記述力の限界を表すと主張されてきました。
この文法を学習するために、研究者はベイジアン プログラム学習 (BPL) 手法を使用しました。各文法規則 T を、問題空間のドメイン固有の制約を捉えるプログラミング言語のプログラムとしてモデル化します。すべての言語に共通する言語構造を普遍文法といいます。このアプローチは、言語学における長年のアプローチの現代的な例とみなすことができ、人間が理解できる生成表現を採用して普遍文法を形式化します。
BPL が解決する必要がある問題を定義した後、すべてのプログラムの検索空間は無限になり、この問題を解決する方法についてのガイダンスは提供されません。勾配降下法やマルコフ連鎖モンテカルロなどの局所最適化アルゴリズムによって利用される局所定常性の場合、研究者らは最適化問題を組み合わせ制約充足問題に変換し、ブール充足可能性を使用する制約ベースのプログラム合成戦略を採用しました。 (SAT) ソルバーで解決します。
これらのソルバーは、徹底的かつ比較的効率的な検索を実装し、十分な時間があれば最適なソリューションが見つかることを保証します。一部のデータと一致する最小の文法は、Sketch プロシージャル シンセサイザーを使用して解決できますが、文法サイズの上限に準拠する必要があります。
しかし、実際には、SAT ソルバーが使用する徹底的な検索手法は、大規模なコーパスの解釈に必要な大量のルールに対応できません。
ソルバーを大規模で複雑な理論に拡張するために、研究者たちは、子供が言語を習得し、科学者が理論を構築するという基本的な特徴からインスピレーションを得ました。
子供たちは一夜にして言語を習得するのではなく、言語発達の中間段階を通じて文法や語彙の把握を徐々に強化していきます。同様に、複雑な科学理論は、単純な概念的な核から始まり、徐々に発展して、ますます多くの言語現象を包含するようになります。
上記の考えに基づいて、研究者らは、小さなプログラムから始めて、SAT ソルバーを繰り返し使用して小さな変更点を見つけ、より多くのデータを説明できるようにするプログラム合成アルゴリズムを設計しました。具体的には、現在の理論に対する反例を見つけ、ソルバーを使用して、この反例に対応できる理論へのすべての小さな変更の空間を徹底的に探索します。 ##################################
しかし、このヒューリスティック手法には、SAT ソルバーの整合性保証が欠けています。完全で正確な SAT ソルバーを繰り返し呼び出しますが、最適な解決策が見つかることは保証されませんが、繰り返し呼び出されるたびに、直接呼び出すよりも優れています。データ全体を最適化することは非常に効果的です。もっと強く。新しい理論を理論空間内で以前の理論に近づけるように制約すると、制約充足問題の多項式の縮小が生じるため、検索時間が指数関数的に増加し、最悪の場合の SAT ソルバーは指数関数的に増加します。
実験的評価段階では、研究者らは言語学の教科書から 70 の質問を収集しました。それぞれの質問には、自然言語における何らかの理論の包括的な分析が必要でした。問題の難易度はさまざまで、さまざまな自然言語現象がカバーされています。
自然言語も声調言語を含めて多様です。たとえば、ケレウェ (タンザニアのバンツー語) では、数えるのは /kubala/ ですが、数えるのは /kukíbála/ になります。高音。
母音調和をもつ言語もあります。たとえば、トルコには、/el-ler/ と /t∫ の他に、それぞれ手と鐘を表す /el/ と /t∫an/ があります。 an-lar/. は、それぞれ針と時計の複数形を表し、同化や拡張形式など、他にも多くの言語現象があります。
#評価では、まず正しい語彙を発見するモデルの能力を測定します。グラウンドトゥルース語彙と比較すると、モデルはベンチマークの 60% で質問の語彙全体と正しく一致する構文を検出し、質問の 79% で語彙の大部分を正しく解釈しました。
通常、各問題の正しい語彙は、正しいルールよりも具体的であり、正しい語彙から完全なデータを生成するルールは、モデルの内容と一致している必要があります。の基礎となるルールには観察上の同等性があります。したがって、基礎となる真理辞書との一貫性は、同期ルールがデータ上で正しく動作するかどうかを測定する指標として使用する必要があり、この評価はルールの品質に関連します。
この仮説を検証するために、研究者らは 15 個の質問をランダムに選択し、専門の言語学者と相談して、発見されたルールを採点しました。再現率 (正しく復元された実際の音声規則の割合) と精度 (復元された実際に発生した規則の割合) が同時に測定されました。精度と再現率の指標の下では、ルールの正確さが語彙の正確さと正の相関があることがわかります。
システムがすべての語彙を正しく取得すると、無関係なルール (精度が高い) が導入されることはめったになく、ほとんどの場合、すべての正しいルール (再現率が高い) が取得されます。
以上が言語学者が帰ってきた! 「発音」から学習を開始:今回はAIモデルが自ら学習する必要があるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。