検索
ホームページテクノロジー周辺機器AIPaLMを超えて!北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

大規模な言語モデルは、1,750 億のパラメータをもつ GPT-3 や 5,400 億のパラメータをもつ PaLM など、現代の自然言語処理技術の基礎と言えます。事前トレーニング モデルは非常に強力な数回の学習を提供します。下流のタスクの能力。

しかし、推論タスクは依然として難しい問題であり、特に正しい答えを得るために複数のステップからなる推論が必要な問題は依然として困難です。

最近、研究者らは、適切に設計されたプロンプトがモデルを誘導して最終的な答えを生成するための複数ステップの推論を実行できる限り、この方法は思考連鎖推論とも呼ばれることを発見しました。

PaLMを超えて!北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

思考連鎖テクノロジーにより、算術ベンチマーク GSM8K の精度が 17.9% から 58.1% に向上しました。その後導入された投票の自己一貫性メカニズムにより、さらに精度が向上しました。74.4 に向上しました。 %

PaLMを超えて!北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

簡単に言えば、複雑な推論タスクには、通常、正しい答えを得ることができる複数の推論パスがあります。自己一貫性のあるメソッドは、思考チェーン A セットを通じて言語モデルからサンプルを取得します。さまざまな推論パスを選択し、その中で最も一貫した答えが返されます。

PaLMを超えて!北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

最近、北京大学とマイクロソフトの研究者らは、3 つの主要な革新ポイントを含む新しい自己一貫性のある手法 DiVeRSe に基づいて、モデルの推論機能をさらに向上させました。

PaLMを超えて!北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

論文のリンク: https://arxiv.org/abs/2206.02336

コードのリンク: https://github.com/microsoft/DiVerSe

まず、「異なるアイデア、同じ答え」という一貫性のあるアプローチ、つまり言語モデルから異なる推論パスをサンプリングするというアプローチに触発された DiVeRSe は、「すべての道」の原則に従い、多様性においてさらに一歩前進します。ローマに導く」 このアイデアは、複数のプロンプトを使用して回答を生成することで、より完全で補完的な回答を生成できるということです。

PaLMを超えて!北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

研究者は、まず各質問に対して 5 つの異なるプロンプトを提供し、次に各プロンプトに対して 20 の推論パスをサンプリングし、最後に各プロンプトに対して 100 の解決策の推論パスを生成します。質問。

重要な問題は、さまざまなプロンプトを取得する方法です。サンプル ライブラリを取得した後、そこから K 個のサンプルをサンプリングしてプロンプトを構築し、それを 5 回繰り返すことができると仮定します。

If thereサンプルが十分ではない場合は、自己学習を使用してプロンプト多様性を改善します。つまり、サンプルの一部から疑似推論パスと ペアを生成します。

PaLMを超えて!北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

第 2 に、推論パスを生成するときに、前のステップでのエラーを修正するメカニズムが言語モデルにないため、最終的な予測結果に混乱が生じる可能性があります。 DiVeRSe は、投票メカニズムをガイドする各推論パスの正しさを検証する検証者のアイデアを活用しています。つまり、すべての推論メカニズムが同じように重要または優れているわけではありません。

質問に対して 100 の推論パスがあり、そのうち 60 の結果が「答えは 110」で、40 の結果が「答えは 150」であるとします。バリデータ (つまり、元の自己矛盾のない方法) がなければ、「答えは 110 です」が多数決となるため、110 を最終的な答えとして扱い、結果が 150 になる 40 の推論パスを削除できます。

verifier は推論パスをスコアリングします。関数 f は 2 分類器によってトレーニングされます。入力は質問 x、パス z、回答 y で、出力は肯定的な確率です。

PaLMを超えて!北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

検証器では、「答えは 110 です」の 60 の推論パスの平均スコアが 0.3 であると仮定し、「答えは 110 です」の 40 の推論パスの平均スコアは 0.3 であると仮定します。 150インチは0.8です。 40*0.8>60*0.3

であるため、最終的な答えは 150 になるはずです。第三に、答えは複数の推論ステップに基づいて生成されるため、パスが正しい答えを生成する場合、そのパスはすべてのステップであると考えることができます。最終的な正確さに貢献します。ただし、間違った答えが生成されたとしても、それはすべてのステップが間違っていた、またはエラーの一因となったことを意味するわけではありません。

言い換えれば、結果が間違っていても、いくつかの中間ステップは依然として正しい可能性がありますが、その後のいくつかの逸脱ステップが最終的に間違った答えにつながります。 DiVeRSe は、各ステップにきめ細かいラベルを割り当てるメカニズムを設計し、ステップを認識した検証機能を提案し、最終的な答えだけを見るのではなく、各ステップの推論に正しさを割り当てました。

PaLMを超えて!北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

本体は依然として 2 つの分類子ですが、重要な問題は、最終的な答えが間違っている場合、人間の手を介さずにステップ レベルのネガティブ ラベルを取得する方法です。どのステップが間違っていたのかはわかりませんが、プロセスは正しいはずです。

研究者らはサポートの概念を提案しました。たとえば、算術タスクでは、中間ステップの結果と同じ、別の例の中間結果が必要です。

PaLMを超えて!北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

これら 3 つの改善点に基づいて、研究者らは 5 つの算術推論データセットで実験を実施しました。code-davinci-002 に基づく DiVeRSe メソッドは、新しい SOTA アルゴリズムの平均改善率は 6.2% です。)、その理由は、常識推論タスクがオープンエンド生成タスクではなく多肢選択タスクであるため、偽陽性の疑似が多くなることが推測されます。 -例。

帰納的推論タスクでは、DiVeRSe は CLUTRR タスクで 95.9% のスコアを達成し、以前の SOTA 微調整結果 (28.9%) を上回りました PaLMを超えて!北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

アブレーション実験では、次のことがわかります。投票 検証メカニズムのパフォーマンスの向上は比較的明らかです。

# ほとんどの実験では、投票ベリファイアをステップ対応バージョンに拡張することでパフォーマンスを向上させることができます。 GSM8K 上の code-davinci-002 の場合、ステップ対応バージョンの Verifier によりパフォーマンスがわずかに低下します。

考えられる理由は、code-davinci-002 がより強力で、GSM8K の高品質な推論パスを生成できるため、ステップレベルの情報の必要性が減ります。つまり、text-davinci は short/推論パスは不完全ですが、code-davinci は成長するコンテンツの生成により適しています。 PaLMを超えて!北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

この論文の筆頭著者は Yifei Li です。彼は 2020 年にソフトウェア エンジニアリングの学士号を取得してノースイースタン大学を卒業し、現在北京大学で修士号取得に向けて勉強しています。大学での彼の主な研究方向は自然言語処理、特に大規模な言語モデルにおけるプロンプトチューニングと推論です。

この記事の 2 番目の著者は、Microsoft Research Asia の DKI 研究者である Zeqi Lin です。彼は 2014 年と 2019 年に北京大学からそれぞれ学士号と博士号を取得しました。彼の主な研究方向は機械学習とその機械学習です。ソフトウェア分析におけるアプリケーションとデータ分析におけるアプリケーションです。 PaLMを超えて!北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

以上がPaLMを超えて!北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
迅速なエンジニアリングにおける思考のグラフは何ですか迅速なエンジニアリングにおける思考のグラフは何ですかApr 13, 2025 am 11:53 AM

導入 迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

Genaiエージェントとの電子メールマーケティングを組織に最適化しますGenaiエージェントとの電子メールマーケティングを組織に最適化しますApr 13, 2025 am 11:44 AM

導入 おめでとう!あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apr 13, 2025 am 11:40 AM

導入 今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

ChatGptは10億人のユーザーにヒットしますか? 「わずか数週間で2倍になりました」とOpenai CEOは言いますChatGptは10億人のユーザーにヒットしますか? 「わずか数週間で2倍になりました」とOpenai CEOは言いますApr 13, 2025 am 11:23 AM

「ユーザーは何人いますか?」彼は突き出した。 「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。 「わずか数週間で2倍になったと言った」とアンダーソンは続けた。 「私はそのprivと言いました

PIXTRAL -12B:Mistral AI'の最初のマルチモーダルモデル-Analytics VidhyaPIXTRAL -12B:Mistral AI'の最初のマルチモーダルモデル-Analytics VidhyaApr 13, 2025 am 11:20 AM

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか?これで、画像とTexの両方を採用できます

生成AIアプリケーションのエージェントフレームワーク - 分析Vidhya生成AIアプリケーションのエージェントフレームワーク - 分析VidhyaApr 13, 2025 am 11:13 AM

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか?これでa

金融セクターにおける生成AIの応用金融セクターにおける生成AIの応用Apr 13, 2025 am 11:12 AM

導入 金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

オンライン学習とパッシブアグレッシブアルゴリズムのガイドオンライン学習とパッシブアグレッシブアルゴリズムのガイドApr 13, 2025 am 11:09 AM

導入 データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。