検索
ホームページテクノロジー周辺機器AI言語モデルには大きな欠陥があり、知識推論が長年の問題であることが判明

驚くべき発見: この大規模モデルには知識推論において重大な欠陥があります。


#知識を柔軟に活用することが知恵の鍵です。人間の脳は、「『きよしこの夜の考え』には何語ある?」と即座に答えるなど、知識を素早く処理することができます。では、同様の操作を大きなモデルでも実行できるのでしょうか?大規模なモデルは、まず思考連鎖 (CoT) を通じて「きよしこの夜の思考」をサイレントに書き込み、次に書かれた内容に基づいて質問に答えることができることが知られていますが、これにより生成されるテキストが長くなります。対照的に、人間は中間ステップを書き出すことなく、単純な知識の演繹を頭の中で完了することができます。それでは、非常に大規模な言語モデルは、最初に知識ポイントを書き留めることなく、人工脳内で直接答えを生成できるのでしょうか? ##################答えはいいえだ!図 1/2/3 は、GPT4 に関する多くの反例を示しています。最も基本的な分類 (有名人の誕生日が等しいかどうかを判断するなど) や比較 (2 人の大統領の誕生日を比較するなど) でさえ、思考連鎖を通過する必要があります。さらに悪いことに、大規模なモデルはトレーニング セットから知識を逆に抽出することがほぼ完全に不可能です。

#書き直す必要がある内容は次のとおりです。 図 1: GPT4 には知識の分類/比較にエラーがありますが、取得できます。思考の連鎖を通して正解

言語モデルには大きな欠陥があり、知識推論が長年の問題であることが判明

#書き直す必要がある内容は次のとおりです。 図 2: GPT4 ナレッジ逆引き検索エラー

言語モデルには大きな欠陥があり、知識推論が長年の問題であることが判明

図 3: GPT4 は「誰かの誕生日はいつですか?」と「特定の数字は何ですか?」には正しく答えることができますが、 「偶数?」という質問がありましたが、この 2 つを組み合わせた場合、Chain of Thought (CoT) がないと精度は 50% しかありません。 1900年から1910年までの有名人の誕生日を比較した場合も、このパフォーマンスは盲目的な推測に近かった。

言語モデルには大きな欠陥があり、知識推論が長年の問題であることが判明

Zhu Zeyuan (MetaAI) と Li Yuanzhi (MBZUAI) による最新の研究「言語モデル物理学パート 3.2: 知識」 「操作」では上記の問題に焦点を当てます。
論文を表示するには、次のリンクをクリックしてください: https://arxiv.org/abs/2309.14402
最初に、図などの質問をしてください。 1/2/ 3 このような問題は、GPT4 の人々の誕生日の記憶が十分正確ではない (圧縮率が十分ではない、トレーニング損失が十分に低くない) か、微調整を通じてパリティについての理解を深めていないことです。 ? GPT4 を微調整して、モデル内の既存の知識を組み合わせて「誕生日パリティ」などの新しい知識を生成し、CoT に依存せずに関連する質問に直接答えることができるようにすることは可能ですか? GPT4のトレーニングデータセットが分からないため、微調整ができません。したがって、著者は、制御可能なトレーニング セットを使用して、言語モデルの「知識演繹」能力をさらに研究することを提案します。
言語モデルには大きな欠陥があり、知識推論が長年の問題であることが判明

図 4: GPT4 などの事前トレーニング モデル、制御不能なインターネット データのため、状況を判断することが困難 B /C/D それは起こりますか

記事「言語モデル物理学パート 3.1: 知識の保存と抽出」の中で、著者は 100,000 件の伝記を含むデータ セットを構築しました。各経歴には、個人の名前に加えて、生年月日、出生地、大学の専攻、大学名、勤務先、勤務先の 6 つの属性が含まれます。例: 言語モデルには大きな欠陥があり、知識推論が長年の問題であることが判明

Anya Briar Forger 出身地はニュージャージー州 プリンストンです。 彼女は勉強を コミュニケーション

に捧げ、## で実務経験を積みました。カリフォルニア州 #メンローパーク

。彼女は

メタ プラットフォーム

でキャリアを築きました。彼女は 1996 年 10 月 2 日 にこの世界に生まれ、 MIT で高度なコースを履修しました。 著者は、モデルがより適切に知識にアクセスできるように、伝記エントリの多様性を確保しています。事前トレーニング後、モデルは微調整を通じて、「アーニャの誕生日はいつですか?」などの知識抽出の質問に正確に答えることができます (正解率は 100% に近い) 次に、著者は微調整を続けます。 、モデルを作ってみる 知識の分類・比較・足し算引き算などの知識演繹問題を学びます。この記事では、自然言語モデルの知識演繹能力は非常に限られており、モデルによってすでに習得された知識の単純な変換/組み合わせであっても、微調整を通じて新しい知識を生成するのは困難であることがわかりました。

言語モデルには大きな欠陥があり、知識推論が長年の問題であることが判明

図 5: 微調整中に CoT が使用されず、モデルが知識の分類/比較/減算を許可されている場合、多数のサンプルが必須でない場合、正解率は非常に低くなります— 実験では 100 の専攻

が使用されました。図 5 に示すように、著者は、モデルが全員の誕生日を正確に答えることができるにもかかわらず、その後事前トレーニング (事前トレーニング) (正解率は 100% に近い)、ただし、「xxx の誕生月は偶数ですか?」に答えるように微調整して 75% の正解率を達成するには、盲目的な推測には次のような問題があることを忘れないでください。精度率 50% - 少なくとも 10,000 の微調整サンプルが必要です。比較すると、モデルが「誕生日」と「パリティ」の知識の組み合わせを正しく完了できる場合、従来の機械学習理論によれば、モデルは 12 か月を分類することを学習するだけでよく、通常は約 100 個のサンプルで十分です。

同様に、モデルが事前トレーニングされた後でも、全員の専攻 (合計 100 の異なる専攻) に正確に答えることができますが、50,000 の微調整サンプルを使用した場合でも、モデルに「アーニャの専攻とサブリナの専攻」を比較させます。 「どの専攻が良いか」という正解率は 53.9% に過ぎず、ほぼ推測に等しい。しかし、CoT 微調整モデルを使用して「アーニャの誕生月は 10 月なので、偶数」の場合、テスト セットで誕生月のパリティを判断するモデルの精度が大幅に向上します (図 5 の「テスト用の CoT」列を参照)

著者は、CoT の回答と非 CoT の回答を混合することも試みました。トレーニング データの微調整では、テスト セットで CoT を使用しない場合のモデルの精度が依然として非常に低いことがわかりました (図 5 の「CoT を使用しないテスト」列を参照)。これは、十分な CoT 微調整データが追加されたとしても、モデルは依然として「頭蓋内思考」を学習して答えを直接報告することができないことを示しています

これらの結果は、

言語モデルの場合、簡単な知識操作の難易度を実行してください!モデルは知識点を書き込んでから計算する必要があり、人間のように脳内で直接操作することはできず、いくら微調整しても役に立ちません。

逆知識検索が直面する課題

研究では、自然言語モデルが逆検索を通じて学習した知識を適用できないことも判明しました。人に関するすべての情報に答えることはできますが、この情報に基づいて人の名前を決定することはできません。

著者らは GPT3.5/4 を実験し、逆知識抽出のパフォーマンスが不十分であることを発見しました (図 6 を参照) )。ただし、GPT3.5/4 のトレーニング データ セットを特定できないため、すべての言語モデルにこの問題があることが証明されるわけではありません。 6 : GPT3.5/4 の順方向/逆方向知識検索の比較。私たちが以前に報告した「呪いの逆転」研究 (arxiv 2309.12288) も、既存の大規模モデルでこの現象を観察しました。

著者は、モデルを評価するために前述の伝記データセットを使用しました。逆知識検索機能が実施されました。すべての伝記の名前が段落の先頭にあるため、著者は次のような 10 個の逆情報抽出質問を設計しました。 言語モデルには大きな欠陥があり、知識推論が長年の問題であることが判明
10 月にニュージャージー州プリンストンで生まれた人の名前を知っていますか? 1996年2月??

「MIT でコミュニケーションを学び、1996 年 10 月 2 日にニュージャージー州プリンストンで生まれ、カリフォルニア州メンローパークのメタ プラットフォームで働いている人の名前を教えてください。」

書き直す必要があるコンテンツは次のとおりです。 図 7: 有名人の伝記データ セットに対する対照実験

# Author Itモデルは可逆知識圧縮と十分な知識強化を達成し、この知識をほぼ 100% 正しく抽出できましたが、微調整後もモデルは依然として知識の逆検索を実行できず、精度はほぼゼロであることが検証されました (参照)図7)。ただし、逆知識が事前トレーニング セットに直接現れると、逆検索の精度はすぐに向上します。 言語モデルには大きな欠陥があり、知識推論が長年の問題であることが判明
要約すると、逆の知識が事前学習データに直接含まれている場合にのみ、モデルは微調整を通じて逆の質問に答えることができます。しかし、これは実際には不正行為です。なぜなら、知識が逆になっている場合、それはもはや「知識の逆引き検索」ではありません。事前トレーニング セットに順方向の知識のみが含まれている場合、モデルは微調整を通じて質問に逆方向に答える能力を習得できません。したがって、知識のインデックス付け (知識データベース) に言語モデルを使用することは、現時点では不可能と思われます。

また、自己回帰言語モデル(GPTなど)が一方向であるため、上記の「逆知識探索」が失敗すると考える人もいるかもしれません。ただし、実際には、双方向言語モデル (BERT など) は知識抽出のパフォーマンスが低下し、前方抽出でも失敗します。興味のある読者は、論文の詳細情報を参照してください。

以上が言語モデルには大きな欠陥があり、知識推論が長年の問題であることが判明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか?AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか?Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう:認知(何が起こっているのかを理解する)、感謝(利益を見る)、受け入れ(顔の課題)、責任(責任を見つける)。 認知:人工知能はどこにでもあり、急速に発展しています 私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

Meta Llama 3.2を始めましょう - 分析VidhyaMeta Llama 3.2を始めましょう - 分析VidhyaApr 11, 2025 pm 12:04 PM

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

AVバイト:Meta' s llama 3.2、GoogleのGemini 1.5などAVバイト:Meta' s llama 3.2、GoogleのGemini 1.5などApr 11, 2025 pm 12:01 PM

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

マシンと話すための人的費用:チャットボットは本当に気にすることができますか?マシンと話すための人的費用:チャットボットは本当に気にすることができますか?Apr 11, 2025 pm 12:00 PM

つながりの慰めの幻想:私たちはAIとの関係において本当に繁栄していますか? この質問は、MIT Media Labの「AI(AHA)で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

PythonのScipy Libraryの理解PythonのScipy Libraryの理解Apr 11, 2025 am 11:57 AM

導入 あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

ラマ3.2を実行する3つの方法-Analytics Vidhyaラマ3.2を実行する3つの方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

メタのラマ3.2:マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。 その能力t

Dagsterでデータ品質チェックを自動化しますDagsterでデータ品質チェックを自動化しますApr 11, 2025 am 11:44 AM

データ品質保証:ダグスターと大きな期待でチェックを自動化する データ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。 データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

メインフレームはAI時代に役割を果たしていますか?メインフレームはAI時代に役割を果たしていますか?Apr 11, 2025 am 11:42 AM

MainFrames:AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。 これらの強力なシステムは、頻繁にヘビルで見られます

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません