大規模な言語モデルは、1,750 億のパラメータをもつ GPT-3 や 5,400 億のパラメータをもつ PaLM など、現代の自然言語処理技術の基礎と言えます。事前トレーニング モデルは非常に強力な数回の学習を提供します。下流のタスクの能力。
しかし、推論タスクは依然として難しい問題であり、特に正しい答えを得るために複数のステップからなる推論が必要な問題は依然として困難です。
最近、研究者らは、適切に設計されたプロンプトがモデルを誘導して最終的な答えを生成するための複数ステップの推論を実行できる限り、この方法は思考連鎖推論とも呼ばれることを発見しました。
思考連鎖テクノロジーにより、算術ベンチマーク GSM8K の精度が 17.9% から 58.1% に向上しました。その後導入された投票の自己一貫性メカニズムにより、さらに精度が向上しました。74.4 に向上しました。 %
簡単に言えば、複雑な推論タスクには、通常、正しい答えを得ることができる複数の推論パスがあります。自己一貫性のあるメソッドは、思考チェーン A セットを通じて言語モデルからサンプルを取得します。さまざまな推論パスを選択し、その中で最も一貫した答えが返されます。
最近、北京大学とマイクロソフトの研究者らは、3 つの主要な革新ポイントを含む新しい自己一貫性のある手法 DiVeRSe に基づいて、モデルの推論機能をさらに向上させました。
論文のリンク: https://arxiv.org/abs/2206.02336
コードのリンク: https://github.com/microsoft/DiVerSe
まず、「異なるアイデア、同じ答え」という一貫性のあるアプローチ、つまり言語モデルから異なる推論パスをサンプリングするというアプローチに触発された DiVeRSe は、「すべての道」の原則に従い、多様性においてさらに一歩前進します。ローマに導く」 このアイデアは、複数のプロンプトを使用して回答を生成することで、より完全で補完的な回答を生成できるということです。
研究者は、まず各質問に対して 5 つの異なるプロンプトを提供し、次に各プロンプトに対して 20 の推論パスをサンプリングし、最後に各プロンプトに対して 100 の解決策の推論パスを生成します。質問。
重要な問題は、さまざまなプロンプトを取得する方法です。サンプル ライブラリを取得した後、そこから K 個のサンプルをサンプリングしてプロンプトを構築し、それを 5 回繰り返すことができると仮定します。
If thereサンプルが十分ではない場合は、自己学習を使用してプロンプト多様性を改善します。つまり、サンプルの一部から疑似推論パスと ペアを生成します。
第 2 に、推論パスを生成するときに、前のステップでのエラーを修正するメカニズムが言語モデルにないため、最終的な予測結果に混乱が生じる可能性があります。 DiVeRSe は、投票メカニズムをガイドする各推論パスの正しさを検証する検証者のアイデアを活用しています。つまり、すべての推論メカニズムが同じように重要または優れているわけではありません。
質問に対して 100 の推論パスがあり、そのうち 60 の結果が「答えは 110」で、40 の結果が「答えは 150」であるとします。バリデータ (つまり、元の自己矛盾のない方法) がなければ、「答えは 110 です」が多数決となるため、110 を最終的な答えとして扱い、結果が 150 になる 40 の推論パスを削除できます。
verifier は推論パスをスコアリングします。関数 f は 2 分類器によってトレーニングされます。入力は質問 x、パス z、回答 y で、出力は肯定的な確率です。
検証器では、「答えは 110 です」の 60 の推論パスの平均スコアが 0.3 であると仮定し、「答えは 110 です」の 40 の推論パスの平均スコアは 0.3 であると仮定します。 150インチは0.8です。 40*0.8>60*0.3
であるため、最終的な答えは 150 になるはずです。第三に、答えは複数の推論ステップに基づいて生成されるため、パスが正しい答えを生成する場合、そのパスはすべてのステップであると考えることができます。最終的な正確さに貢献します。ただし、間違った答えが生成されたとしても、それはすべてのステップが間違っていた、またはエラーの一因となったことを意味するわけではありません。
言い換えれば、結果が間違っていても、いくつかの中間ステップは依然として正しい可能性がありますが、その後のいくつかの逸脱ステップが最終的に間違った答えにつながります。 DiVeRSe は、各ステップにきめ細かいラベルを割り当てるメカニズムを設計し、ステップを認識した検証機能を提案し、最終的な答えだけを見るのではなく、各ステップの推論に正しさを割り当てました。
本体は依然として 2 つの分類子ですが、重要な問題は、最終的な答えが間違っている場合、人間の手を介さずにステップ レベルのネガティブ ラベルを取得する方法です。どのステップが間違っていたのかはわかりませんが、プロセスは正しいはずです。
研究者らはサポートの概念を提案しました。たとえば、算術タスクでは、中間ステップの結果と同じ、別の例の中間結果が必要です。
これら 3 つの改善点に基づいて、研究者らは 5 つの算術推論データセットで実験を実施しました。code-davinci-002 に基づく DiVeRSe メソッドは、新しい SOTA アルゴリズムの平均改善率は 6.2% です。)、その理由は、常識推論タスクがオープンエンド生成タスクではなく多肢選択タスクであるため、偽陽性の疑似が多くなることが推測されます。 -例。
帰納的推論タスクでは、DiVeRSe は CLUTRR タスクで 95.9% のスコアを達成し、以前の SOTA 微調整結果 (28.9%) を上回りました
# ほとんどの実験では、投票ベリファイアをステップ対応バージョンに拡張することでパフォーマンスを向上させることができます。 GSM8K 上の code-davinci-002 の場合、ステップ対応バージョンの Verifier によりパフォーマンスがわずかに低下します。
考えられる理由は、code-davinci-002 がより強力で、GSM8K の高品質な推論パスを生成できるため、ステップレベルの情報の必要性が減ります。つまり、text-davinci は short/推論パスは不完全ですが、code-davinci は成長するコンテンツの生成により適しています。
この論文の筆頭著者は Yifei Li です。彼は 2020 年にソフトウェア エンジニアリングの学士号を取得してノースイースタン大学を卒業し、現在北京大学で修士号取得に向けて勉強しています。大学での彼の主な研究方向は自然言語処理、特に大規模な言語モデルにおけるプロンプトチューニングと推論です。
この記事の 2 番目の著者は、Microsoft Research Asia の DKI 研究者である Zeqi Lin です。彼は 2014 年と 2019 年に北京大学からそれぞれ学士号と博士号を取得しました。彼の主な研究方向は機械学習とその機械学習です。ソフトウェア分析におけるアプリケーションとデータ分析におけるアプリケーションです。
以上がPaLMを超えて!北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ジョン・ロールズの独創的な1971年の著書「正義の理論」で、彼は私たちが今日のAIデザインの核となり、意思決定を使用するべきであるという思考実験を提案しました:無知のベール。この哲学は、公平性を理解するための簡単なツールを提供し、リーダーがこの理解を使用してAIを公平に設計および実装するための青写真を提供します。 あなたが新しい社会のルールを作っていると想像してください。しかし、前提があります。この社会でどのような役割を果たすかは事前にわかりません。過半数または限界少数派に属している、金持ちまたは貧弱、健康、または障害者になることがあります。この「無知のベール」の下で活動することで、ルールメーカーが自分自身に利益をもたらす決定を下すことができません。それどころか、人々はより公衆を策定する意欲があります

ロボットプロセスオートメーション(RPA)を専門とする多くの企業は、繰り返しタスクを自動化するためのボットを提供しています。 一方、プロセスマイニング、オーケストレーション、インテリジェントドキュメント処理スペシャル

AIの未来は、単純な単語の予測と会話シミュレーションを超えて動いています。 AIエージェントは出現しており、独立したアクションとタスクの完了が可能です。 このシフトは、AnthropicのClaudeのようなツールですでに明らかです。 AIエージェント:研究a

急速な技術の進歩は、仕事の未来に関する将来の見通しの視点を必要とします。 AIが単なる生産性向上を超えて、私たちの社会構造の形成を開始するとどうなりますか? Topher McDougalの今後の本、Gaia Wakes:

多くの場合、Harmonized System(HS)などのシステムからの「HS 8471.30」などの複雑なコードを含む製品分類は、国際貿易と国内販売に不可欠です。 これらのコードは、すべてのINVに影響を与える正しい税申請を保証します

データセンターと気候技術投資におけるエネルギー消費の将来 この記事では、AIが推進するデータセンターのエネルギー消費の急増と気候変動への影響を調査し、この課題に対処するための革新的なソリューションと政策の推奨事項を分析します。 エネルギー需要の課題:大規模で超大規模なデータセンターは、数十万の普通の北米の家族の合計に匹敵する巨大な力を消費し、新たなAIの超大規模なセンターは、これよりも数十倍の力を消費します。 2024年の最初の8か月で、Microsoft、Meta、Google、Amazonは、AIデータセンターの建設と運用に約1,250億米ドルを投資しました(JP Morgan、2024)(表1)。 エネルギー需要の成長は、挑戦と機会の両方です。カナリアメディアによると、迫り来る電気

生成AIは、映画とテレビの制作に革命をもたらしています。 LumaのRay 2モデル、滑走路のGen-4、OpenaiのSora、GoogleのVEO、その他の新しいモデルは、前例のない速度で生成されたビデオの品質を向上させています。これらのモデルは、複雑な特殊効果と現実的なシーンを簡単に作成できます。短いビデオクリップやカメラ認知モーション効果も達成されています。これらのツールの操作と一貫性を改善する必要がありますが、進歩の速度は驚くべきものです。 生成ビデオは独立した媒体になりつつあります。アニメーション制作が得意なモデルもあれば、実写画像が得意なモデルもあります。 AdobeのFireflyとMoonvalleyのMAであることは注目に値します

ChatGptユーザーエクスペリエンスは低下します:それはモデルの劣化ですか、それともユーザーの期待ですか? 最近、多数のCHATGPT有料ユーザーがパフォーマンスの劣化について不満を述べています。 ユーザーは、モデルへの応答が遅く、答えが短い、助けの欠如、さらに多くの幻覚を報告しました。一部のユーザーは、ソーシャルメディアに不満を表明し、ChatGptは「お世辞になりすぎて」、重要なフィードバックを提供するのではなく、ユーザービューを検証する傾向があることを指摘しています。 これは、ユーザーエクスペリエンスに影響を与えるだけでなく、生産性の低下やコンピューティングリソースの無駄など、企業の顧客に実際の損失をもたらします。 パフォーマンスの劣化の証拠 多くのユーザーは、特にGPT-4などの古いモデル(今月末にサービスから廃止される)で、ChatGPTパフォーマンスの大幅な分解を報告しています。 これ


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

ホットトピック









