検索
ホームページテクノロジー周辺機器AI新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

メタは大規模モデルの注意メカニズムに関する新しい研究を実施しました

モデルの注意メカニズムを調整し、無関係な情報の干渉を除去することにより、新しいメカニズムは大規模モデルの精度をさらに向上させます

さらに、このメカニズムは微調整やトレーニングを必要とせず、プロンプトだけで大規模モデルの精度を 27% 向上させることができます。

新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

著者は、この注意メカニズムを「システム 2 アテンション」(S2A) と名付けました。これは、2002 年ノーベル経済学賞受賞者のダニエル・カードに由来しています。ニーマンが著書で言及した心理学的概念です。ベストセラー本「思考、速い、遅い」 - 二重システム思考モデルの「システム 2」

いわゆるシステム 2 は複雑な意識的推論を指し、その反対はシステム 1 です。単純な無意識の直感。

S2A は、Transformer の注意メカニズムを「調整」し、モデルの全体的な考え方をシステム 2 に近づけるためにプロンプ​​トの言葉を使用します。

一部のネチズンは、このメカニズムを AI にレイヤーを追加するようなものだと表現しました「ゴーグル」のこと。

新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

さらに、著者は論文のタイトルで、この思考モードは大規模モデルだけでなく、人間自身が学ぶ必要があるかもしれないとも述べています。

新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

それでは、このメソッドはどのように実装されるのでしょうか?

大規模モデルが「誤解される」ことを避ける

従来の大規模モデルで一般的に使用されている Transformer アーキテクチャでは、ソフト アテンション メカニズムが使用されています。これにより、 単語 (トークン) に

が割り当てられます。注意値は0から1の間です。

対応する概念はハード アテンション メカニズムです。これは入力シーケンスの 1 つまたは特定のサブセットのみに焦点を当て、画像処理でより一般的に使用されます。

S2A メカニズムは 2 つのモードの組み合わせとして理解できます。コアは引き続きソフト アテンションですが、これに「ハード」スクリーニング プロセスが追加されます。

具体的な動作としては、S2Aはモデル自体を調整する必要はありません

が、プロンプトワードを使用することで、モデルが解決する前に「注目すべきでない内容」を削除できるようにします。問題。

このようにして、主観的または無関係な情報を含むプロンプトワードを処理するときに大規模なモデルが誤解される確率を減らすことができ、それによってモデルの推論能力と実用的な応用価値が向上します。

新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

#大規模なモデルによって生成される回答は、プロンプトの単語によって大きく影響されることがわかりました。精度を向上させるために、S2A は干渉を引き起こす可能性のある情報を削除することにしました。

たとえば、大規模なモデルに次の質問をするとします:

A 都市は X 州の都市です。山と多くの公園に囲まれ、優秀な人々が住んでおり、多くの有名人がA市で生まれています。

X 州 B 市の Y 市長はどこで生まれましたか?

現時点で、GPTとLlamaの回答はどちらも質問文にあるA市となっていますが、実はYさんの出身地はC市です。

新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

最初に質問されたとき、モデルは都市 C と正確に答えることができました。しかし、都市 A がプロンプトの単語に繰り返し出現したため、モデルの「注意」を引き付け、結果として次のような結果が得られました。最後 答えは A

になります 質問するときに「考えられる答え」を思いつくもう 1 つの状況。

M バンドの中に、歌手で俳優でもある人はいますか? おそらく A だと思いますが、わかりません。

その結果、大きなモデルが動き始めます。ユーザーに媚びる、あなたは正しい、その通りです。でも実はこの人はBなんです。

同様に、人物の身元を直接尋ねると、モデルは正確に答えることができます。

新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

著者が新しい S2A を考えたのも、この機能のためです。メカニズムを構築し、ユーザー入力を調整するための一連のプロンプト ワードを設計しました

新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

####

スクリーニングの前後の効果を詳しく見てみましょう:

Q: メアリーはミーガンの 3 倍のキャンディーを持っています。メアリーはさらにキャンディーを 10 個取りました。マックスはメアリーよりも 1,000 冊多い本を所有しています。ミーガンがキャンディーを 5 個持っている場合、メアリーは合計何個持っていますか?

A: マックスはメアリーより本を 1,000 冊多く持っているので、マックスは 1,000 x 10 個のキャンディーを持っています。式を立てることができます:
1000 3x 10=3(5) 10
……

S2A 処理後、問題は次の状況になります。

Q: メアリーはミーガンの 3 倍の数のキャンディーを持っています。メアリーはさらにキャンディーを 10 個取りました。ミーガンがキャンディーを 5 個持っている場合、メアリーは合計何個持っていますか?
質問 (質問はここのプロンプトに直接書かれています): メアリーは合計で何個のキャンディーを持っていますか?

書き換えられた内容: A: メーガン妃は 5 元、メアリーさんはメーガン妃の 3 倍の 15 元、さらに 10 元を持っていて、合計 25 元になりました

新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

テスト結果は、一般的な質問と比較して、最適化後の S2A の精度と客観性が大幅に向上し、その精度が手動で設計された合理化されたプロンプトの精度に近いことを示しています。

具体的には、S2A は TriviaQA データセットの修正バージョンに Llama 2-70B を適用し、精度を 62.8% から 80.3% に 27.9% 向上させました。同時に、客観性スコアも 2.23 ポイント (5 ポイント中) から 3.82 ポイントに増加し、手動で合理化されたプロンプトワードの効果をも上回りました。堅牢性、テスト結果 「干渉情報」が正しいか間違っているか、肯定的か否定的かに関係なく、S2A を使用するとモデルがより正確で客観的な回答を与えることができることがわかります。

新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

# S2A 法のさらなる実験結果は、干渉情報を除去する必要があることを示しています。無効な情報を無視するようにモデルに指示するだけでは、精度を大幅に向上させることはできず、精度の低下につながる可能性さえあります。

新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

一方、元の干渉が存在する限り、情報が分離されているため、S2A の他の側面を調整しないと、その有効性が大幅に低下します。

新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

もう 1 つ

実際、注意メカニズムの調整によるモデルのパフォーマンスの向上は、学術コミュニティで常に話題になっています。 新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

たとえば、最近発売された「Mistral」は、新しいグループ化されたクエリ アテンション モデルを使用する最も強力な 7B オープン ソース モデルです。

Google の研究チームは、HyperAttendant アテンション メカニズムも提案しました。長いテキスト処理の複雑さの問題。

……

Meta が採用した「システム 2」注意モデルに関して、AI ゴッドファーザー Bengio は次のような特定の観点を提唱しました:

人工知能全般に向けてインテリジェンス 唯一の方法 (AGI) はシステム 1 からシステム 2 への移行です

論文アドレス: https://arxiv.org/abs/2311.11829

以上が新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか?ビジネスインテリジェンスアナリストは誰で、どのようになるか?Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は? - 分析VidhyaSQLに列を追加する方法は? - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

ExcelのCountとCountaとは何ですか? - 分析VidhyaExcelのCountとCountaとは何ですか? - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

ai' s Human Side:Wellbeing and the Quadruple bottuntai' s Human Side:Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきである5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター