PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新-AI-php.cn

ホームページ

テクノロジー周辺機器

PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 pm 03:37 PM

AIアルゴリズム

大規模な言語モデルは、1,750 億のパラメータをもつ GPT-3 や 5,400 億のパラメータをもつ PaLM など、現代の自然言語処理技術の基礎と言えます。事前トレーニングモデルは非常に強力な数回の学習を提供します。下流のタスクの能力。

しかし、推論タスクは依然として難しい問題であり、特に正しい答えを得るために複数のステップからなる推論が必要な問題は依然として困難です。

最近、研究者らは、適切に設計されたプロンプトがモデルを誘導して最終的な答えを生成するための複数ステップの推論を実行できる限り、この方法は思考連鎖推論とも呼ばれることを発見しました。

PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

思考連鎖テクノロジーにより、算術ベンチマーク GSM8K の精度が 17.9% から 58.1% に向上しました。その後導入された投票の自己一貫性メカニズムにより、さらに精度が向上しました。74.4 に向上しました。 %

PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

簡単に言えば、複雑な推論タスクには、通常、正しい答えを得ることができる複数の推論パスがあります。自己一貫性のあるメソッドは、思考チェーン A セットを通じて言語モデルからサンプルを取得します。さまざまな推論パスを選択し、その中で最も一貫した答えが返されます。

PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

最近、北京大学とマイクロソフトの研究者らは、3 つの主要な革新ポイントを含む新しい自己一貫性のある手法 DiVeRSe に基づいて、モデルの推論機能をさらに向上させました。

PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

論文のリンク: https://arxiv.org/abs/2206.02336

コードのリンク: https://github.com/microsoft/DiVerSe

まず、「異なるアイデア、同じ答え」という一貫性のあるアプローチ、つまり言語モデルから異なる推論パスをサンプリングするというアプローチに触発された DiVeRSe は、「すべての道」の原則に従い、多様性においてさらに一歩前進します。ローマに導く」このアイデアは、複数のプロンプトを使用して回答を生成することで、より完全で補完的な回答を生成できるということです。

PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

研究者は、まず各質問に対して 5 つの異なるプロンプトを提供し、次に各プロンプトに対して 20 の推論パスをサンプリングし、最後に各プロンプトに対して 100 の解決策の推論パスを生成します。質問。

重要な問題は、さまざまなプロンプトを取得する方法です。サンプルライブラリを取得した後、そこから K 個のサンプルをサンプリングしてプロンプトを構築し、それを 5 回繰り返すことができると仮定します。

If thereサンプルが十分ではない場合は、自己学習を使用してプロンプト多様性を改善します。つまり、サンプルの一部から疑似推論パスとペアを生成します。

PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

第 2 に、推論パスを生成するときに、前のステップでのエラーを修正するメカニズムが言語モデルにないため、最終的な予測結果に混乱が生じる可能性があります。 DiVeRSe は、投票メカニズムをガイドする各推論パスの正しさを検証する検証者のアイデアを活用しています。つまり、すべての推論メカニズムが同じように重要または優れているわけではありません。

質問に対して 100 の推論パスがあり、そのうち 60 の結果が「答えは 110」で、40 の結果が「答えは 150」であるとします。バリデータ (つまり、元の自己矛盾のない方法) がなければ、「答えは 110 です」が多数決となるため、110 を最終的な答えとして扱い、結果が 150 になる 40 の推論パスを削除できます。

verifier は推論パスをスコアリングします。関数 f は 2 分類器によってトレーニングされます。入力は質問 x、パス z、回答 y で、出力は肯定的な確率です。

PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

検証器では、「答えは 110 です」の 60 の推論パスの平均スコアが 0.3 であると仮定し、「答えは 110 です」の 40 の推論パスの平均スコアは 0.3 であると仮定します。 150インチは0.8です。 40*0.8>60*0.3

であるため、最終的な答えは 150 になるはずです。第三に、答えは複数の推論ステップに基づいて生成されるため、パスが正しい答えを生成する場合、そのパスはすべてのステップであると考えることができます。最終的な正確さに貢献します。ただし、間違った答えが生成されたとしても、それはすべてのステップが間違っていた、またはエラーの一因となったことを意味するわけではありません。

言い換えれば、結果が間違っていても、いくつかの中間ステップは依然として正しい可能性がありますが、その後のいくつかの逸脱ステップが最終的に間違った答えにつながります。 DiVeRSe は、各ステップにきめ細かいラベルを割り当てるメカニズムを設計し、ステップを認識した検証機能を提案し、最終的な答えだけを見るのではなく、各ステップの推論に正しさを割り当てました。

PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

本体は依然として 2 つの分類子ですが、重要な問題は、最終的な答えが間違っている場合、人間の手を介さずにステップレベルのネガティブラベルを取得する方法です。どのステップが間違っていたのかはわかりませんが、プロセスは正しいはずです。

研究者らはサポートの概念を提案しました。たとえば、算術タスクでは、中間ステップの結果と同じ、別の例の中間結果が必要です。

PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

これら 3 つの改善点に基づいて、研究者らは 5 つの算術推論データセットで実験を実施しました。code-davinci-002 に基づく DiVeRSe メソッドは、新しい SOTA アルゴリズムの平均改善率は 6.2% です。)、その理由は、常識推論タスクがオープンエンド生成タスクではなく多肢選択タスクであるため、偽陽性の疑似が多くなることが推測されます。 -例。

帰納的推論タスクでは、DiVeRSe は CLUTRR タスクで 95.9% のスコアを達成し、以前の SOTA 微調整結果 (28.9%) を上回りました PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

アブレーション実験では、次のことがわかります。投票検証メカニズムのパフォーマンスの向上は比較的明らかです。

# ほとんどの実験では、投票ベリファイアをステップ対応バージョンに拡張することでパフォーマンスを向上させることができます。 GSM8K 上の code-davinci-002 の場合、ステップ対応バージョンの Verifier によりパフォーマンスがわずかに低下します。

考えられる理由は、code-davinci-002 がより強力で、GSM8K の高品質な推論パスを生成できるため、ステップレベルの情報の必要性が減ります。つまり、text-davinci は short/推論パスは不完全ですが、code-davinci は成長するコンテンツの生成により適しています。 PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

この論文の筆頭著者は Yifei Li です。彼は 2020 年にソフトウェアエンジニアリングの学士号を取得してノースイースタン大学を卒業し、現在北京大学で修士号取得に向けて勉強しています。大学での彼の主な研究方向は自然言語処理、特に大規模な言語モデルにおけるプロンプトチューニングと推論です。

この記事の 2 番目の著者は、Microsoft Research Asia の DKI 研究者である Zeqi Lin です。彼は 2014 年と 2019 年に北京大学からそれぞれ学士号と博士号を取得しました。彼の主な研究方向は機械学習とその機械学習です。ソフトウェア分析におけるアプリケーションとデータ分析におけるアプリケーションです。 PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

以上がPaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

あなたは無知のベールの後ろに職場AIを構築する必要がありますApr 29, 2025 am 11:15 AM

ジョン・ロールズの独創的な1971年の著書「正義の理論」で、彼は私たちが今日のAIデザインの核となり、意思決定を使用するべきであるという思考実験を提案しました：無知のベール。この哲学は、公平性を理解するための簡単なツールを提供し、リーダーがこの理解を使用してAIを公平に設計および実装するための青写真を提供します。あなたが新しい社会のルールを作っていると想像してください。しかし、前提があります。この社会でどのような役割を果たすかは事前にわかりません。過半数または限界少数派に属している、金持ちまたは貧弱、健康、または障害者になることがあります。この「無知のベール」の下で活動することで、ルールメーカーが自分自身に利益をもたらす決定を下すことができません。それどころか、人々はより公衆を策定する意欲があります

決定、決定…実用的な応用AIの次のステップApr 29, 2025 am 11:14 AM

ロボットプロセスオートメーション（RPA）を専門とする多くの企業は、繰り返しタスクを自動化するためのボットを提供しています。一方、プロセスマイニング、オーケストレーション、インテリジェントドキュメント処理スペシャル

エージェントが来ています - 私たちがAIパートナーの隣ですることについてもっとApr 29, 2025 am 11:13 AM

AIの未来は、単純な単語の予測と会話シミュレーションを超えて動いています。 AIエージェントは出現しており、独立したアクションとタスクの完了が可能です。このシフトは、AnthropicのClaudeのようなツールですでに明らかです。 AIエージェント：研究a

共感がAI主導の未来におけるリーダーのコントロールよりも重要である理由Apr 29, 2025 am 11:12 AM

急速な技術の進歩は、仕事の未来に関する将来の見通しの視点を必要とします。 AIが単なる生産性向上を超えて、私たちの社会構造の形成を開始するとどうなりますか？ Topher McDougalの今後の本、Gaia Wakes：

製品分類のためのAI：マシンは税法を習得できますか？Apr 29, 2025 am 11:11 AM

多くの場合、Harmonized System（HS）などのシステムからの「HS 8471.30」などの複雑なコードを含む製品分類は、国際貿易と国内販売に不可欠です。これらのコードは、すべてのINVに影響を与える正しい税申請を保証します

データセンターの要求は、気候技術のリバウンドを引き起こす可能性がありますか？Apr 29, 2025 am 11:10 AM

データセンターと気候技術投資におけるエネルギー消費の将来この記事では、AIが推進するデータセンターのエネルギー消費の急増と気候変動への影響を調査し、この課題に対処するための革新的なソリューションと政策の推奨事項を分析します。エネルギー需要の課題：大規模で超大規模なデータセンターは、数十万の普通の北米の家族の合計に匹敵する巨大な力を消費し、新たなAIの超大規模なセンターは、これよりも数十倍の力を消費します。 2024年の最初の8か月で、Microsoft、Meta、Google、Amazonは、AIデータセンターの建設と運用に約1,250億米ドルを投資しました（JP Morgan、2024）（表1）。エネルギー需要の成長は、挑戦と機会の両方です。カナリアメディアによると、迫り来る電気

AIとハリウッドの次の黄金時代Apr 29, 2025 am 11:09 AM

生成AIは、映画とテレビの制作に革命をもたらしています。 LumaのRay 2モデル、滑走路のGen-4、OpenaiのSora、GoogleのVEO、その他の新しいモデルは、前例のない速度で生成されたビデオの品質を向上させています。これらのモデルは、複雑な特殊効果と現実的なシーンを簡単に作成できます。短いビデオクリップやカメラ認知モーション効果も達成されています。これらのツールの操作と一貫性を改善する必要がありますが、進歩の速度は驚くべきものです。生成ビデオは独立した媒体になりつつあります。アニメーション制作が得意なモデルもあれば、実写画像が得意なモデルもあります。 AdobeのFireflyとMoonvalleyのMAであることは注目に値します

ChatGptはゆっくりとAIの最大のYES-MANになりますか？Apr 29, 2025 am 11:08 AM

ChatGptユーザーエクスペリエンスは低下します：それはモデルの劣化ですか、それともユーザーの期待ですか？最近、多数のCHATGPT有料ユーザーがパフォーマンスの劣化について不満を述べています。ユーザーは、モデルへの応答が遅く、答えが短い、助けの欠如、さらに多くの幻覚を報告しました。一部のユーザーは、ソーシャルメディアに不満を表明し、ChatGptは「お世辞になりすぎて」、重要なフィードバックを提供するのではなく、ユーザービューを検証する傾向があることを指摘しています。これは、ユーザーエクスペリエンスに影響を与えるだけでなく、生産性の低下やコンピューティングリソースの無駄など、企業の顧客に実際の損失をもたらします。パフォーマンスの劣化の証拠多くのユーザーは、特にGPT-4などの古いモデル（今月末にサービスから廃止される）で、ChatGPTパフォーマンスの大幅な分解を報告しています。これ

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。