検索
ホームページテクノロジー周辺機器AIGoogle の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリューム モデルの 10 倍を超える

大型モデルの「錯覚」問題は間もなく解決されるでしょうか?

ウィスコンシン大学マディソン校の研究者と Google は最近、大規模モデルの出力を自己評価できる ASPIRE システムを立ち上げました。

ユーザーは、モデルによって生成された結果のスコアが低いことを確認すると、その応答が幻想である可能性があることに気づくでしょう。

Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリューム モデルの 10 倍を超える

システムがスコアに基づいて出力をさらにフィルタリングできる場合、たとえばスコアが低い場合、大規模なモデルは次のようなものを生成できます。幻覚の問題を最大限に改善できる可能性があるこの質問には、私は答えることができません。」

Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリューム モデルの 10 倍を超える

論文アドレス: https://aclanthology.org/2023.findings-emnlp.345.pdf

ASPIRE を使用すると、LLM は答えとその答えの信頼スコアを出力できます。

研究者らの実験結果は、ASPIRE が CoQA ベンチマークなどのさまざまな QA データセットに対して従来の選択的予測手法を大幅に上回るパフォーマンスを示していることを示しています。

LLM は質問に答えるだけでなく、その回答を評価することもできます。

選択的予測のベンチマーク テストでは、研究者は ASPIRE システムを通じてモデルのスケールの 10 倍を超える結果を達成しました。

Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリューム モデルの 10 倍を超える

#教科書の後ろで生徒に自分の答えを確認させるようなものです。少し信憑性がありませんが、よく考えてみると、 , 皆さん 質問を完了すると、確かに回答の満足度のスコアが表示されます。

これは ASPIRE の本質であり、次の 3 つのフェーズが含まれます:

(1) 特定のタスクの調整

(2) 解答サンプリング、

(3) 自己評価学習。

研究者の目には、ASPIRE は単なるフレームワークではなく、LLM の信頼性を包括的に向上させ、幻覚を軽減する明るい未来を表しています。

LLM が意思決定プロセスにおいて信頼できるパートナーになれれば。

選択的予測を行う能力を継続的に最適化することで、人間は大規模モデルの可能性を完全に実現することに一歩近づきます。

研究者たちは、ASPIRE を使用して次世代 LLM の進化を開始し、それによってより信頼性が高く自己認識型の人工知能を作成したいと考えています。

ASPIRE の仕組み

特定のタスクの微調整

ASPIRE は、LLM をフリーズしながら、タスク固有の微調整を実行して適応パラメーターをトレーニングします。 Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリューム モデルの 10 倍を超える生成タスク用のトレーニング データセットが与えられると、事前トレーニングされた LLM を微調整して予測パフォーマンスを向上させます。

この目的のために、パラメータ効率の高い微調整技術 (ソフトキューワード微調整や LoRA など) を使用して、タスクに関する事前トレーニング済み LLM を微調整できます。 、少数のターゲットで効率的に取得できるため、強力な汎化タスク データ。

具体的には、LLM パラメータ (θ) が固定され、微調整のために適応パラメータ

が追加されます。 Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリューム モデルの 10 倍を超える標準的な LLM トレーニング損失 (クロスエントロピーなど) を最小限に抑えるために θ (p) のみを更新します。

この種の微調整により、予測精度が向上するだけでなく、シーケンスが正しく出力される可能性も高まるため、選択的予測のパフォーマンスを向上させることができます。

#回答のサンプリング

## 特定のタスク向けに調整された後、ASPIRE は LLM を使用して学習 Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリューム モデルの 10 倍を超えるさまざまな回答を生成するトレーニングの質問ごとに、自己評価学習用のデータセットを作成します。

研究者の目標は、高い確率で出力シーケンスを生成することです。彼らは、復号化アルゴリズムとしてビーム検索を使用して、尤度の高い出力シーケンスを生成し、生成された出力シーケンスが正しいかどうかを判断するために Rouge-L メトリックを使用しました。

自己評価学習

各クエリの可能性の高い出力をサンプリングした後、ASPIRE は自己評価を追加しますパラメータ Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリューム モデルの 10 倍を超える を調整し、自己評価を学習するために Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリューム モデルの 10 倍を超える のみを微調整します。

出力シーケンスの生成は θ と Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリューム モデルの 10 倍を超える のみに依存するため、θ と学習された Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリューム モデルの 10 倍を超える をフリーズすると次のようになります。自己評価を学習する際の LLM の予測動作の変更を回避しました。

研究者らは、適応された LLM が自ら正解と不正解を区別できるように Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリューム モデルの 10 倍を超える を最適化しました。

Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリューム モデルの 10 倍を超える

このフレームワークでは、パラメータ有効な微調整メソッドを使用して Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリューム モデルの 10 倍を超える と ## をトレーニングできます。 #。 Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリューム モデルの 10 倍を超える

この研究では、研究者らは、「ソフト キュー」を学習して凍結された言語モデルを調整するためのシンプルかつ効果的なメカニズムであるソフト キュー ファインチューニングを使用しました。これにより、特定の下流タスクをより効率的に実行できます。従来の個別のテキスト プロンプトよりも優れています。

このアプローチの背後にある核心は、自己評価を効果的に刺激する手がかりを開発できれば、目標を絞ったトレーニング目標と組み合わせたソフトな手がかりを微調整することで発見できるはずであるという認識です。チップ。

Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリューム モデルの 10 倍を超える

Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリューム モデルの 10 倍を超える をトレーニングした後、研究者はビーム検索によって解読しました。クエリの予測 (ビーム検索デコード)。 Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリューム モデルの 10 倍を超える

研究者らは、回答を生成する可能性と学習した自己評価スコア (つまり、クエリに対する予測が正しい可能性) を組み合わせた選択スコアを定義します。選択的な予測を行います。

結果

ASPIRE の効果を実証するために、研究者らは 3 つの質問と回答に対してさまざまなオープン事前トレーニング済みトランスフォーマー (OPT) モデルを使用しました。データ セット (CoQA、TriviaQA、SQuAD) で評価します。

ソフトキューを使用してトレーニングを調整することにより、Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリューム モデルの 10 倍を超える研究者らは、LLM の精度が大幅に向上することを観察しました。

たとえば、ASPIRE を使用した OPT-2.7B モデルは、CoQA および SQuAD データセットを使用して事前トレーニングされた大規模な OPT-30B モデルよりも優れたパフォーマンスを示しました。

これらの結果は、適切な調整を行うことで、より小さな LLM が状況によってはより大きなモデルの精度に匹敵する、またはそれを超える可能性があることを示唆しています。

Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリューム モデルの 10 倍を超える

固定モデル予測の選択スコアの計算を詳しく調べると、ASPIRE はすべてのデータセット (ランダムな確率) でベースライン手法よりも高い AUROC スコアを達成しました。選択された正しい出力シーケンスは、ランダムに選択された誤った出力シーケンスよりも高い選択スコアを持ちます)。

たとえば、CoQA ベンチマークでは、ASPIRE はベースラインと比較して AUROC を 51.3% から 80.3% に改善します。

TriviaQA データセットの評価から、興味深いパターンが明らかになりました。

事前トレーニング済み OPT-30B モデルはより高いベースライン精度を示しますが、従来の自己評価方法 (自己評価および P(True)) を適用する場合の選択 性別予測のパフォーマンス大幅には改善されていません。

対照的に、はるかに小型の OPT-2.7B モデルは、ASPIRE で強化された後、この点で他のモデルよりも優れた性能を発揮しました。

この違いは重要な問題を反映しています。従来の自己評価手法を利用する大規模な LLM は、小規模な ASPIRE 拡張モデルほど選択的予測において効果的ではない可能性があります。

Google の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリューム モデルの 10 倍を超える

研究者による ASPIRE での実験の旅は、LLM の状況における重要な変化を浮き彫りにしています。言語モデルの能力がすべてではなく、最終的なものではありません。そのパフォーマンスのすべてを。

代わりに、ポリシーの調整によってモデルの有効性を大幅に向上させることができ、小規模なモデルでもより正確で信頼性の高い予測が可能になります。

したがって、ASPIRE は、LLM が自身の答えの確実性を賢明に判断し、選択的予測タスクにおいて他の LLM のサイズを 10 倍大幅に上回る可能性を示しています。

以上がGoogle の新しいメソッド ASPIRE: LLM に自己採点機能を与え、「錯覚」問題を効果的に解決し、ボリューム モデルの 10 倍を超えるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
解读CRISP-ML(Q):机器学习生命周期流程解读CRISP-ML(Q):机器学习生命周期流程Apr 08, 2023 pm 01:21 PM

译者 | 布加迪审校 | 孙淑娟目前,没有用于构建和管理机器学习(ML)应用程序的标准实践。机器学习项目组织得不好,缺乏可重复性,而且从长远来看容易彻底失败。因此,我们需要一套流程来帮助自己在整个机器学习生命周期中保持质量、可持续性、稳健性和成本管理。图1. 机器学习开发生命周期流程使用质量保证方法开发机器学习应用程序的跨行业标准流程(CRISP-ML(Q))是CRISP-DM的升级版,以确保机器学习产品的质量。CRISP-ML(Q)有六个单独的阶段:1. 业务和数据理解2. 数据准备3. 模型

人工智能的环境成本和承诺人工智能的环境成本和承诺Apr 08, 2023 pm 04:31 PM

人工智能(AI)在流行文化和政治分析中经常以两种极端的形式出现。它要么代表着人类智慧与科技实力相结合的未来主义乌托邦的关键,要么是迈向反乌托邦式机器崛起的第一步。学者、企业家、甚至活动家在应用人工智能应对气候变化时都采用了同样的二元思维。科技行业对人工智能在创建一个新的技术乌托邦中所扮演的角色的单一关注,掩盖了人工智能可能加剧环境退化的方式,通常是直接伤害边缘人群的方式。为了在应对气候变化的过程中充分利用人工智能技术,同时承认其大量消耗能源,引领人工智能潮流的科技公司需要探索人工智能对环境影响的

找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

条形统计图用什么呈现数据条形统计图用什么呈现数据Jan 20, 2021 pm 03:31 PM

条形统计图用“直条”呈现数据。条形统计图是用一个单位长度表示一定的数量,根据数量的多少画成长短不同的直条,然后把这些直条按一定的顺序排列起来;从条形统计图中很容易看出各种数量的多少。条形统计图分为:单式条形统计图和复式条形统计图,前者只表示1个项目的数据,后者可以同时表示多个项目的数据。

自动驾驶车道线检测分类的虚拟-真实域适应方法自动驾驶车道线检测分类的虚拟-真实域适应方法Apr 08, 2023 pm 02:31 PM

arXiv论文“Sim-to-Real Domain Adaptation for Lane Detection and Classification in Autonomous Driving“,2022年5月,加拿大滑铁卢大学的工作。虽然自主驾驶的监督检测和分类框架需要大型标注数据集,但光照真实模拟环境生成的合成数据推动的无监督域适应(UDA,Unsupervised Domain Adaptation)方法则是低成本、耗时更少的解决方案。本文提出对抗性鉴别和生成(adversarial d

数据通信中的信道传输速率单位是bps,它表示什么数据通信中的信道传输速率单位是bps,它表示什么Jan 18, 2021 pm 02:58 PM

数据通信中的信道传输速率单位是bps,它表示“位/秒”或“比特/秒”,即数据传输速率在数值上等于每秒钟传输构成数据代码的二进制比特数,也称“比特率”。比特率表示单位时间内传送比特的数目,用于衡量数字信息的传送速度;根据每帧图像存储时所占的比特数和传输比特率,可以计算数字图像信息传输的速度。

数据分析方法有哪几种数据分析方法有哪几种Dec 15, 2020 am 09:48 AM

数据分析方法有4种,分别是:1、趋势分析,趋势分析一般用于核心指标的长期跟踪;2、象限分析,可依据数据的不同,将各个比较主体划分到四个象限中;3、对比分析,分为横向对比和纵向对比;4、交叉分析,主要作用就是从多个维度细分数据。

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元Apr 09, 2023 am 10:31 AM

2021年10月,Jeff Dean亲自撰文介绍了一个全新的机器学习架构——Pathways。目的很简单,就是让一个AI能够跨越数以万计的的任务,理解不同类型的数据,并同时以极高的效率实现:在大半年之后的2022年3月,Jeff Dean终于发布了Pathways的论文。论文连接:https://arxiv.org/abs/2203.12533其中,补充了不少技术上的细节,比如最基本的系统架构等等。2022年4月,谷歌用Pathways的PaLM语言模型横空出世,接连打破多项自然语言处理任务的S

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。