ホームページ >テクノロジー周辺機器 >AI >GPT-4 は、DeepMind トレーニングを通じて精度が 13.7% 向上し、帰納と演繹の能力が向上しました。

GPT-4 は、DeepMind トレーニングを通じて精度が 13.7% 向上し、帰納と演繹の能力が向上しました。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB転載
2023-10-14 20:13:03876ブラウズ

現在、大規模言語モデル (LLM) は、特に例と中間ステップが提供されている場合に、推論タスクで驚くべき機能を実証しています。ただし、プロンプト メソッドは通常、LLM の暗黙的知識に依存します。暗黙的知識が間違っているか、タスクと矛盾している場合、LLM は間違った答えを返す可能性があります

GPT-4 は、DeepMind トレーニングを通じて精度が 13.7% 向上し、帰納と演繹の能力が向上しました。

##現在、Google、Mila Institute、その他の研究機関の研究者は、LLM に推論ルールを学習させるという新しい方法を共同で検討し、Hypotheses-to-Theories (HtT) という新しいフレームワークと呼ばれる方法を提案しました。この新しい方法は、複数ステップの推論を改善するだけでなく、解釈可能性と伝達可能性という利点もあります

GPT-4 は、DeepMind トレーニングを通じて精度が 13.7% 向上し、帰納と演繹の能力が向上しました。

論文アドレス: https://arxiv.org/abs/2310.07064

数値推論と関係推論の問題に関する実験結果によると、HtT 法は既存のプロンプト手法を改良し、精度が 11 向上しました。 -27%。同時に、学習したルールを別のモデルや同じ問題の別の形式に転送することもできます

方法の紹介

一般的にHtT フレームワークは帰納的段階と演繹的段階の 2 つの段階で構成されており、従来の機械学習におけるトレーニングとテストに似ていると述べました。

GPT-4 は、DeepMind トレーニングを通じて精度が 13.7% 向上し、帰納と演繹の能力が向上しました。

導入フェーズでは、LLM はまずトレーニング サンプル用の一連のルールを生成して検証する必要があります。この研究では、CoT を使用してルールを宣言して答えを導き出し、ルールの頻度と精度を評価し、頻繁に出現して正解につながるルールを収集し、ルール ベースを形成します。

良いルールを使用してライブラリを使用している場合、次のステップは、問題を解決するためにこれらのルールを適用する方法を検討することです。この目的を達成するために、この研究では推論フェーズでプロンプトにルール ベースを追加し、LLM がルール ベースからルールを取得して推論を実行し、暗黙的な推論を明示的な推論に変換する必要があります。

ただし、研究によると、非常に強力な LLM (GPT-4 など) であっても、すべてのステップで正しいルールを取得するのは難しいことがわかっています。したがって、この研究では、LLM の文脈検索機能を強化する XML マークアップ技術を開発しました。

GPT-4 は、DeepMind トレーニングを通じて精度が 13.7% 向上し、帰納と演繹の能力が向上しました。

#実験結果

HtT を評価するために、研究では 2 つのマルチステップ推論問題をベンチマークしました。実験結果は、HtT が少数サンプル プロンプト法を改善することを示しています。著者らは、HtT をより包括的に理解するために、広範なアブレーション研究も実施しました。

彼らは、数的推論と関係論的推論の問題に関する新しい方法を評価します。数値推論では、GPT-4 の精度が 21.0% 向上したことが観察されました。関係推論では、GPT-4 は精度で 13.7% の向上を達成し、GPT-3.5 ではさらに恩恵を受け、パフォーマンスが 2 倍になりました。パフォーマンスの向上は主に、ルールの錯覚の減少によってもたらされます。

GPT-4 は、DeepMind トレーニングを通じて精度が 13.7% 向上し、帰納と演繹の能力が向上しました。

# 具体的には、以下の表 1 は、16 進数、11 進数、および 9 進数の算術結果を示しています。データセット。すべての基本システムの中で、両方の LLM で 0 ショット CoT のパフォーマンスが最も悪くなっています。

GPT-4 は、DeepMind トレーニングを通じて精度が 13.7% 向上し、帰納と演繹の能力が向上しました。

#表 2 は、CLUTRR のさまざまな方法を比較した結果を示しています。 GPT3.5 と GPT4 では、0 ショット CoT のパフォーマンスが最も悪いことがわかります。少数ショット プロンプト方法の場合、CoT と LtM は同様に機能します。平均精度の点では、HtT は両方のモデルのヒンティング手法を常に 11.1 ~ 27.2% 上回っています。 GPT3.5 は CLUTRR ルールの取得が悪くなく、GPT4 よりも HtT の恩恵を受けやすいことは注目に値します。これはおそらく、CLUTRR のルールが算術演算よりも少ないためです。

GPT4 のルールを使用すると、GPT3.5 での CoT パフォーマンスが 27.2% 向上し、これは CoT パフォーマンスの 2 倍以上であり、CoT パフォーマンスに近いことに言及する価値があります。 GPT4で。したがって、著者らは、HtT が強力な LLM から弱い LLM への知識の蒸留の新しい形式として機能すると考えています。

GPT-4 は、DeepMind トレーニングを通じて精度が 13.7% 向上し、帰納と演繹の能力が向上しました。

表 3 は、HtT が GPT-4 (テキスト バージョン) のパフォーマンスを大幅に向上させることを示しています。 GPT3.5 ではテキスト入力の処理時にルールの錯覚以外のエラーが発生することが多いため、この改善は重要ではありません。

GPT-4 は、DeepMind トレーニングを通じて精度が 13.7% 向上し、帰納と演繹の能力が向上しました。

GPT-4 は、DeepMind トレーニングを通じて精度が 13.7% 向上し、帰納と演繹の能力が向上しました。#

以上がGPT-4 は、DeepMind トレーニングを通じて精度が 13.7% 向上し、帰納と演繹の能力が向上しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。