検索
ホームページテクノロジー周辺機器AIGPT-4 は「世界モデル」を作成し、LLM が「間違った質問」から学習し、推論能力を大幅に向上できるようにします。

最近、大規模な言語モデルは、さまざまな自然言語処理タスク、特に複雑な思考連鎖 (CoT) 推論を必要とする数学的問題において大きな進歩を遂げています

たとえば、GSM8KやMATHなどの難しい数学的タスクのデータセットでは、GPT-4やPaLM-2を含む独自のモデルが顕著な成果を上げています。この点で、オープンソースの大規模モデルにはまだ改善の余地がかなりあります。数学的タスク用のオープンソースの大規模モデルの CoT 推論機能をさらに向上させるための一般的なアプローチは、注釈付き/生成された質問と推論のデータ ペア (CoT データ) を使用してこれらのモデルを微調整することです。タスク中に CoT 推論を実行します。

最近、西安交通大学、マイクロソフト、北京大学の研究者らは、論文の中で、逆学習プロセス(つまり、大学の間違いから学ぶこと)による改善アイデアを検討しました。 LLM ) 推論能力をさらに向上させるために

#数学を学び始める生徒と同じように、まず教科書の知識ポイントと例を学習して理解を深めます。しかし同時に、学んだことを定着させるための演習も行っています。困難に遭遇したり、問題の解決に失敗したりすると、自分がどのような間違いを犯したかに気づき、それを修正する方法を学び、「間違った問題集」を形成します。間違いから学ぶことで、彼の推論能力はさらに向上します

このプロセスに触発されたこの研究では、間違いを理解して修正することで LLM の推論能力がどのように向上するかを探ります。

GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升

論文アドレス: https://arxiv.org/pdf/2310.20689.pdf

特定の具体的には、研究者らはまず誤り訂正データのペア (訂正データと呼ばれる) を生成し、次にその訂正データを使用して LLM を微調整しました。修正データを生成するとき: 何を書き直す必要があるか、複数の LLM (LLaMA および GPT ファミリのモデルを含む) を使用して不正確な推論パス (つまり、最終的な答えが不正確) を収集し、その後 GPT-4 を「修正者」として使用しました。 、これらの不正確な推論パスに対する修正を生成します

#生成された修正には、(1) 元の解決策の間違ったステップ、(2) そのステップが間違っていたという説明の 3 つの情報が含まれています。間違っている 正しい理由; (3) 正しい最終答えに到達するために元の解決策を修正する方法。不正確な最終回答を含む修正を除外した後、手動評価により、修正データがその後の微調整フェーズに十分な品質を示していることがわかりました。研究者らは、QLoRA を使用して CoT データと補正データの LLM を微調整し、それによって「エラーからの学習」(LEMA) を実行しました。

研究によると、現在の LLM は段階的なアプローチを使用して問題を解決できることが示されていますが、この複数段階の生成プロセスは、LLM 自体が強力な推論能力を備えていることを意味するものではありません。これは、基礎的なロジックと必要なルールを真に理解せずに、人間の推論の表面的な動作を模倣するだけである可能性があるためです。

この理解の欠如は、推論プロセスでエラーを引き起こす可能性があるため、ヘルプ「世界モデル」は現実世界の論理とルールを先験的に認識しているため、「世界モデル」の理解が必要となります。この観点から、この記事の LEMA フレームワークは、単に段階的な動作を模倣するのではなく、より小さなモデルにこれらのロジックやルールに従うように教えるための「ワールド モデル」として GPT-4 を使用していると見ることができます。

##次に、この研究の具体的な実装手順を見てみましょう

#方法の概要

# 以下の図 1 (左) を参照してください。これは、修正データを生成する 2 つの主要な段階 (書き換えが必要なコンテンツと LLM の微調整) を含む LEMA のプロセス全体を示しています。図 1 (右) は、GSM8K および MATH データ セットでの LEMA のパフォーマンスを示しています。

GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升

修正されたデータを生成します。再処理が必要です。何が書かれているか

質問と回答の例GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升、修正モデル M_c と推論モデル M_r を考慮して、研究者は誤り修正データのペアを生成しました。GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升 は質問 q_i の不正確な推論パスを表し、c_i は GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升 に対する修正を表します。


#不正確な推論パスの修正。研究者は、次の式(1)に示すように、まず推論モデル M_r を使って質問 q_i ごとに複数の推論パスをサンプリングし、最終的に正解 a_i に至らなかったパスのみを保持します。

GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升

エラーに対する修正 を生成します。質問 q_i と不正確な推論パス GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升 について、研究者は、以下の式 (2) に示すように、修正モデル M_c を使用して修正を生成し、修正内の正解を確認します。

GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升

#P_c には、生成された修正にどのタイプを含めるかについて修正モデルをガイドするための、注釈付きの 4 つのエラー修正の例が含まれています。

#具体的には、注釈付きの修正には、次の 3 つのカテゴリの情報が含まれます。

エラー ステップ: 元の推論パス どのステップが間違っていたか。

  • 説明: このステップで発生したエラーの種類;
  • 正しい解決策: 元の理論をより適切に解決するために不正確な推論パスを修正する方法問題。
  • #下の図をご覧ください。図 1 は、修正を生成するために使用されるプロンプトを簡単に示しています。

修正された人間の評価を生成しますGPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升

。より大きなデータを生成する前に、まず生成された補正の品質を手動で評価しました。彼らは LLaMA-2-70B を M_r として、GPT-4 を M_c として使用し、GSM8K トレーニング セットに基づいて 50 個の誤り訂正されたデータ ペアを生成しました。 研究者らは、リビジョンを 3 つの品質レベル (優れた、良好、不良) に分類しました。以下は 3 つのレベルの例です

GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升

GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升##評価の結果、次のことがわかりました。 , 50 件のビルド修正のうち、35 件は優れた品質、11 件は良好、4 件は低品質でした。この評価に基づいて、研究者らは、GPT-4 を使用して生成された補正の全体的な品質は、さらなる微調整段階に十分であると結論付けました。したがって、より大規模な修正を生成し、最終的に微調整が必​​要な LLM の正解につながるすべての修正を使用しました。

GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升

微調整が必​​要なのは LLM です

修正データを生成した後、書き直す必要があるものを研究者らは LLM を微調整し、モデルが間違いから学習できるかどうかを評価しました。主に、次の 2 つの微調整設定の下でパフォーマンスの比較を実行します。

1 つ目は、 思考連鎖 (CoT) データの を微調整することです。研究者は、疑問の根拠となるデータのみに基づいてモデルを微調整します。各タスクには注釈付きデータがありますが、さらに CoT データ拡張が採用されています。研究者らは GPT-4 を使用して、トレーニング セット内の各質問に対してさらに推論パスを生成し、不正確な最終回答を含むパスを除外しました。彼らは、CoT データ拡張を活用して、CoT データのみを使用する堅牢な微調整ベースラインを構築し、微調整を制御するデータ サイズに関するアブレーション研究を促進します。

2 つ目は、CoT データ補正データを 微調整することです。 CoT データに加えて、研究者らは微調整用の誤り訂正データ (つまり LEMA) も生成しました。また、データ サイズの増加による影響を軽減するために、データ サイズを制御したアブレーション実験も実施しました。

#付録 A の例 5 と例 6 は、それぞれ CoT データと微調整用の補正データの入出力形式を示しています

GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升

実験結果

研究者らは、実験結果を通じて、5 つのオープンソース LLM と 2 つの困難な数学的推論タスクに対する LEMA の有効性を実証しました

GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升#LEMA は、CoT データを微調整するだけの場合と比較して、さまざまな LLM およびタスク全体のパフォーマンスを一貫して向上させます。たとえば、LLaMA-2-70B を使用した LEMA は、GSM8K と MATH でそれぞれ 83.5% と 25.0% を達成しましたが、CoT データのみの微調整ではそれぞれ 81.4% と 23.6% を達成しました

GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升 さらに、LEMA は独自の LLM と互換性があります。WizardMath-70B/MetaMath-70B を搭載した LEMA は、GSM8K 精度で 84.2%/85.4% pass@1 を達成し、27.1%/26.9 の pass@1 精度を達成します。 MATH では % を達成しており、これらの困難なタスクで多くのオープンソース モデルが達成する SOTA パフォーマンスを上回っています。

その後のアブレーション研究では、LEMA が同じ量のデータで CoT のみの微調整よりも優れたパフォーマンスを示していることが示されています。これは、両方のデータ ソースを組み合わせた方が単一のデータ ソースを使用するよりも大きな改善が得られるため、CoT データと修正データの効果が同等ではないことを示唆しています。これらの実験結果と分析は、LLM 推論機能を強化するためにエラーから学習する可能性を強調しています。

研究の詳細については、元の論文を参照してください

以上がGPT-4 は「世界モデル」を作成し、LLM が「間違った質問」から学習し、推論能力を大幅に向上できるようにします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
AIのスキルギャップは、サプライチェーンのダウンを遅くしていますAIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか? サプライチェーン管理協会(ASCM)のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

1つの会社がAIを永遠に変えるために静かに取り組んでいる方法1つの会社がAIを永遠に変えるために静かに取り組んでいる方法Apr 26, 2025 am 11:12 AM

分散型AI革命は静かに勢いを増しています。 今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI(DEAI)を移行します。 派手なコマーシャルとは異なり

Nvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますNvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますApr 26, 2025 am 11:11 AM

エンタープライズAIはデータ統合の課題に直面しています エンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。 この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

aiは芸術とデザインの未来のために新しい絵を描きますaiは芸術とデザインの未来のために新しい絵を描きますApr 26, 2025 am 11:10 AM

AI:芸術とデザインの未来 人工知能(AI)は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。 ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

エージェントAIとのズームがどのように革命を起こしているか:会議からマイルストーンまでエージェントAIとのズームがどのように革命を起こしているか:会議からマイルストーンまでApr 26, 2025 am 11:09 AM

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。 エージェントAIの定義 huang d

大学に対する実存的な脅威大学に対する実存的な脅威Apr 26, 2025 am 11:08 AM

AIは教育に革命をもたらしますか? この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

プロトタイプ:アメリカの科学者は海外の仕事を探していますプロトタイプ:アメリカの科学者は海外の仕事を探していますApr 26, 2025 am 11:07 AM

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32%増加しました。以前の世論調査では、調査した研究者の75%がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50%の削減の可能性があることを示しています。 基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

オープンAIの最新のGPT 4.1ファミリ - 分析VidhyaオープンAIの最新のGPT 4.1ファミリ - 分析VidhyaApr 26, 2025 am 10:19 AM

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。 この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません