検索
ホームページテクノロジー周辺機器AIオープンソースとクローズドソースのモデル「カオス」:どのエージェントが人間の真の意図を最もよく垣間見ることができるか見てみましょう

オープンソースとクローズドソースのモデル「カオス」:どのエージェントが人間の真の意図を最もよく垣間見ることができるか見てみましょう
AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

この記事の最初の著者は、清華大学コンピューターサイエンス学部の学部生、Qian Cheng と He Bingxiang です。二人ともTHUNLPのメンバーです。 Qian Cheng の主な研究対象は、ツール学習と大規模モデル駆動エージェントであり、現在 UIUC で博士号取得を目指しています。 He Bingxiang 氏の主な研究対象は大規模モデルのアライメントとセキュリティであり、まもなく清華大学で博士号取得に向けて勉強する予定です。この記事の責任著者はCong Xin氏とLin Yankai氏、監修者はLiu Zhiyuan准教授です。

今日、人工知能の急速な発展に伴い、私たちは常に機械の知能を研究していますが、これらの知的なエージェントが私たち、つまりその作成者をどのように深く理解しているかを無視することがよくあります。私たち人間が人生で行うすべてのやり取り、すべての言葉、すべての行動は、意図と感情で満たされています。しかし、本当の課題は、これらの暗黙の意図がエージェントによってどのように捕捉され、解析され、反応されるのかということです。従来のインテリジェント エージェントは、明示的なコマンドには迅速に応答しますが、人間の複雑な暗黙の意図を理解できないことがよくあります。

近年、GPT や LLaMA などの言語モデルは、複雑なタスクを解決する際に驚くべき機能を実証してきました。しかし、それらを中核とするエージェントは、戦略の策定とタスクの実行には優れていますが、堅牢なユーザー インタラクション戦略を考慮していることはほとんどありません。ユーザーから与えられるタスクは通常、曖昧で短いため、エージェントは文字通りのリクエストを理解するだけでなく、暗黙の意図を見抜く必要があります。

したがって、新世代のインテリジェント エージェントが実装され、一般に使用されるためには、タスク実行の正確さだけでなく、より自然なタスク実行を確立する方法にも焦点を当て、人間中心である必要があります。 、人間とのスムーズで豊かな関係、洞察力のあるコミュニケーションスタイル。

この不足を補うために、清華大学、人民大学、テンセントの共同チームは最近、新しいインテリジェントエージェントインタラクションデザインプランを提案しました。この研究では、ユーザーとの明示的なインタラクションを通じてユーザーの暗黙の意図を理解することを目的とした新しいベンチマークである Intention-in-Interaction (IN3) を初めて導入します。

Mistral-7B をフレームワークとして使用し、IN3 トレーニングに基づいて、Mistral-Interact は、下流エージェントのタスク実行を開始する前に、タスクの曖昧さを積極的に評価し、ユーザーの意図を照会し、実行可能な目標に絞り込むことができます。この記事では、モデルを XAgent フレームワークに埋め込んだ後、完全にステートフルなエージェント システムの包括的な評価を実施します。

その結果、このソリューションは、あいまいなユーザー タスクの特定、重要な欠落情報の回復と要約、正確かつ必要なエージェント実行目標の設定、冗長ツールの使用の削減において優れたパフォーマンスを発揮することがわかりました。この革新的な方法は、インテリジェント エージェントとユーザーの間の対話のギャップを埋め、真に人間をインテリジェント エージェント設計の中心に据えるだけでなく、より整合性の高いインテリジェント エージェントを設計するという目標に一歩近づいたことも意味します。人間の意図を持って。

オープンソースとクローズドソースのモデル「カオス」:どのエージェントが人間の真の意図を最もよく垣間見ることができるか見てみましょう

  • 論文のタイトル: もっと詳しく!言語モデル駆動エージェントの暗黙的なユーザー意図の理解に向けて
  • 論文のリンク: https://arxiv.org/abs/2402.09205
  • コードリポジトリ: https ://github.com/HBX-hbx/Mistral-Interact
  • オープンソース モデル: https://huggingface.co/hbx/Mistral-Interact
  • オープン ソース データセット: https://huggingface.co / データセット/hbx/IN3

オープンソースとクローズドソースのモデル「カオス」:どのエージェントが人間の真の意図を最もよく垣間見ることができるか見てみましょう

fuzzyタスクとクリアタスクの実行の比較評価指標の不完全性を考慮して、この研究では、明確なタスクの曖昧さの判断とユーザーの意図の理解を通じてエージェントの対話能力を評価することを目的とした Intention-in-Interaction (IN3) ベンチマークを開発しました。
.構築プロセス

上の図に示すように、人間の書き込みに基づくシード タスクはステップ 1 です。モデルは、データセットからサンプリングしながら新しいタスクを繰り返し生成してデータセットを強化します。データセットを次の生成ラウンドの新しいサンプルとして使用します (ステップ 2)。この自己指示生成メソッドの後、各タスクのあいまいさ、欠落している詳細、各詳細の重要性、および潜在的なオプションに手動で注釈が付けられます (ステップ 3)。

オープンソースとクローズドソースのモデル「カオス」:どのエージェントが人間の真の意図を最もよく垣間見ることができるか見てみましょうMistral-Interact トレーニング プロセス

大規模な言語モデルがエージェント設計の中核であるため、この作業ではまず、インタラクションにおける現在のオープン ソース モデルとクローズド ソース モデルの暗黙的なパフォーマンスを評価するための予備調査を実施しました。プロセスの意図を理解する能力。

具体的には、この記事は IN3 から 10 個のタスクをランダムに選択し、それらを LLaMA-2-7B-Chat、Mistral-7B-Instruct-v0.2、および GPT-4 のテストに適用し、これらのモデルを示しています (i) の曖昧性を決定します。 ii) タスクがあいまいな場合は、ユーザーに不足している詳細を尋ねます。iii) 詳細なユーザー タスクを要約します。
人間の意図の問題については理解が足りません。対照的に、GPT-4 は、タスクの曖昧さと重要な欠落した詳細の点で人間の意図に最も近いものです。同時に、予備的な調査により、インタラクションにおける暗黙の意図を理解するエージェントの能力をさらに向上させるには、単純なプロンプト エンジニアリングだけでは不十分であることもわかりました。この目標を達成するには、現在のオープンソース モデルに基づいてさらにトレーニングする必要があります。インテリジェントエージェントの適用度。
trainingデータの構築プロセス(IN3会話記録)会話には、いくつかの戦略 (オレンジ色のボックス) が記録されています。これには、明確な最初の推論チェーンの構築、提案されたオプションを含むクエリの構築、さまざまなユーザー応答トーンの構築、推論チェーンの明確な要約の構築が含まれます。これらの対話構築戦略は、ターゲット モデルのクエリおよび推論能力をより適切に刺激します。
エージェント対話能力の包括的な評価

エージェントの暗黙的意図理解能力は、ユーザー対話を通じて直接評価することも、下流タスクを実行するエージェントを通じて間接的に評価することもできます。その中で、ユーザー インタラクションは意図の理解自体に焦点を当てますが、タスクの実行は意図の理解の最終目標、つまりエージェントのタスク処理能力を向上させることに焦点を当てます。
したがって、対話型エージェントの設計を包括的に評価するために、この記事では実験を次の 2 つの部分に分けます: i)
命令理解
: ユーザー対話中のエージェントの意図理解能力を評価する; ii)
命令実行
:インタラクションモデルを統合した後、エージェントのタスク実行パフォーマンスを評価します。

命令の理解にはリアルタイムのエージェントの実行は含まれないため、この記事では、対話プロセス中にさまざまな言語モデルのパフォーマンスを直接評価し、エージェント設計の上流モジュールとしての対話機能を決定します。結果は次のとおりです。表示:
このうち、矢印は、タスクの曖昧さの判断や欠落している詳細の網羅性などの指標で最も優れたパフォーマンスを発揮することを示します。ユーザーの詳細な意図に基づいた、明確かつ包括的な概要。他のオープンソース モデルと比較して、Mistral-Interact は、あいまいなタスクで欠落している詳細を求めるためのより合理的なオプションを提供でき、クエリ方法はより使いやすく、そのパフォーマンスは GPT-4 に匹敵します。

命令実行の観点から、エージェントタスク実行における暗黙的意図理解の有効性を評価するために、この記事では上流対話モジュールとして Mistral-Interact をテスト用の XAgent フレームワークに統合しています。その中で、XAgent はネットワーク検索、コード実行、コマンド ライン、ファイル システムなどの環境で対話できます。 オープンソースとクローズドソースのモデル「カオス」:どのエージェントが人間の真の意図を最もよく垣間見ることができるか見てみましょう

命令実行テストの結果 (ST はサブタスク、MS はマイルストーンを表します)

定量的評価の結果は、Mistral-Interact の統合が以下に役立つことを示しています: i) 実行プロセス中に不必要な目標を設定しないようにする, ii) エージェントの実行プロセスをユーザーの詳細な意図とより一致させ、iii) 不要なツール呼び出しを削減し、エージェントツールの使用効率を促進します。

エージェント インタラクション ケース分析

オープンソースとクローズドソースのモデル「カオス」:どのエージェントが人間の真の意図を最もよく垣間見ることができるか見てみましょう

コマンドの理解という観点から、さまざまな対話シナリオにおける Mistral-Interact の堅牢性をさらに実証するために、この記事では 3 つのケース分析も提供しています。
ミストラルのケーススタディさまざまなシナリオでのユーザーとの対話

ケース A は、さまざまなユーザーの口調と会話スタイルが Mistral-Interact に与える影響を示しています。記事によると、ユーザーの回答が短いか詳細であるか、熱意があるか冷淡であるか、さらにはスペルミスが含まれているかに関係なく、Mistral-Interact は正確に理解して適切な応答を提供でき、その堅牢性が実証されました。

ケースBでは、ユーザーが非協力的な態度を示したときに、Mistral-Interactが質問を続け、会話を軌道に戻すことができるかどうかがテストされました。その結果、ユーザーが質問を避けた場合でも、会話を効果的にリダイレクトできることがわかりました。

ケース C では、Mistral-Interact がユーザーから提供された追加情報を概要に組み込むことができることがわかりますが、この情報はインタラクション モデルによって明示的に要求されていません。これは、モデルのクエリが欠落している詳細を完全にカバーできない場合、またはユーザーに特定の要件がある場合でも、モデルはすべてのユーザーの意図を合理的かつ包括的に要約でき、よりユーザーフレンドリーになることを示しています。

命令実行の観点からMistral-Interactの役割をより明確に説明するために、以下の図に比較ケーススタディを示します。

オープンソースとクローズドソースのモデル「カオス」:どのエージェントが人間の真の意図を最もよく垣間見ることができるか見てみましょう

薄赤色のテキスト は、XAgent がユーザーのニーズを正確に反映するサブタスクを正確に設定できない場合に表示されます。
とマークされたテキストによると、XAgent がいくつかの不要なサブタスクを設定することが多いことがわかります。これらは、ユーザーのタスクが実行するにはあまりにも曖昧であり、エージェントはユーザーの真の意図と矛盾する不必要な詳細を捏造する傾向があるためです。

対照的に、明確なタスク目標により、XAgent は、Mistral-Interact とのアクティブな対話の後に、より具体的なサブタスクを定式化できます。図内で緑色とマークされたテキストは、この一貫性を示しています。同時に、エージェントの実行プロセスが簡素化され、ツール呼び出しの数が削減されます。これらはすべて、より効率的なエージェント実行プロセスを反映しています。

結論

私たちは新たな出発点に立ち、人間と機械のコラボレーション、相互理解、学習の新たな章を目撃する準備ができています。インテリジェントエージェントは間もなく冷酷な情報処理者ではなくなり、繊細なインタラクティブな体験を通じて最初は明確に表現されなかった私たちのニーズや欲求を深く理解できる共感的なパートナーとなるでしょう。人間中心のインテリジェント エージェント設計におけるこの革命は、インタラクションにおける無限の可能性を明らかにし、インテリジェント エージェントが真に私たちの生活に欠かせない助けとなるでしょう。

以上がオープンソースとクローズドソースのモデル「カオス」:どのエージェントが人間の真の意図を最もよく垣間見ることができるか見てみましょうの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
AI内部展開の隠された危険:ガバナンスのギャップと壊滅的なリスクAI内部展開の隠された危険:ガバナンスのギャップと壊滅的なリスクApr 28, 2025 am 11:12 AM

Apollo Researchの新しいレポートによると、高度なAIシステムの未確認の内部展開は、重大なリスクをもたらします。 主要なAI企業の間で一般的なこの監視の欠如は、Uncontに及ぶ潜在的な壊滅的な結果を可能にします

AIポリグラフの構築AIポリグラフの構築Apr 28, 2025 am 11:11 AM

従来の嘘検出器は時代遅れです。リストバンドで接続されたポインターに依存すると、被験者のバイタルサインと身体的反応を印刷する嘘発見器は、嘘を識別するのに正確ではありません。これが、嘘の検出結果が通常裁判所で採用されない理由ですが、多くの罪のない人々が投獄されています。 対照的に、人工知能は強力なデータエンジンであり、その実用的な原則はすべての側面を観察することです。これは、科学者がさまざまな方法で真実を求めるアプリケーションに人工知能を適用できることを意味します。 1つのアプローチは、嘘発見器のように尋問されている人の重要な符号応答を分析することですが、より詳細かつ正確な比較分析を行います。 別のアプローチは、言語マークアップを使用して、人々が実際に言うことを分析し、論理と推論を使用することです。 ことわざにあるように、ある嘘は別の嘘を繁殖させ、最終的に

AIは航空宇宙産業の離陸のためにクリアされていますか?AIは航空宇宙産業の離陸のためにクリアされていますか?Apr 28, 2025 am 11:10 AM

イノベーションの先駆者である航空宇宙産業は、AIを活用して、最も複雑な課題に取り組んでいます。 近代的な航空の複雑さの増加は、AIの自動化とリアルタイムのインテリジェンス機能を必要とします。

北京の春のロボットレースを見ています北京の春のロボットレースを見ていますApr 28, 2025 am 11:09 AM

ロボット工学の急速な発展により、私たちは魅力的なケーススタディをもたらしました。 NoetixのN2ロボットの重量は40ポンドを超えており、高さは3フィートで、逆流できると言われています。 UnitreeのG1ロボットの重量は、N2のサイズの約2倍で、高さは約4フィートです。また、競争に参加している多くの小さなヒューマノイドロボットがあり、ファンによって前進するロボットさえあります。 データ解釈 ハーフマラソンは12,000人以上の観客を惹きつけましたが、21人のヒューマノイドロボットのみが参加しました。政府は、参加しているロボットが競争前に「集中トレーニング」を実施したと指摘したが、すべてのロボットが競争全体を完了したわけではない。 チャンピオン - 北京ヒューマノイドロボットイノベーションセンターによって開発されたティアンゴニ

ミラートラップ:AI倫理と人間の想像力の崩壊ミラートラップ:AI倫理と人間の想像力の崩壊Apr 28, 2025 am 11:08 AM

人工知能は、現在の形式では、真にインテリジェントではありません。既存のデータを模倣して洗練するのに熟達しています。 私たちは人工知能を作成するのではなく、人工的な推論を作成しています。情報を処理するマシン、人間は

新しいGoogleリークは、便利なGoogle写真機能の更新を明らかにします新しいGoogleリークは、便利なGoogle写真機能の更新を明らかにしますApr 28, 2025 am 11:07 AM

レポートでは、更新されたインターフェイスがGoogle Photos Androidバージョン7.26のコードに隠されていることがわかり、写真を見るたびに、新しく検出された顔のサムネイルの行が画面の下部に表示されます。 新しいフェイシャルサムネイルには名前タグが欠落しているため、検出された各人に関する詳細情報を見るには、個別にクリックする必要があると思います。今のところ、この機能は、Googleフォトが画像で見つけた人々以外の情報を提供しません。 この機能はまだ利用できないため、Googleが正確にどのように使用するかはわかりません。 Googleはサムネイルを使用して、選択した人のより多くの写真を見つけるためにスピードアップしたり、編集して個人を選択するなど、他の目的に使用することもできます。待って見てみましょう。 今のところ

補強能力のガイド - 分析Vidhya補強能力のガイド - 分析VidhyaApr 28, 2025 am 09:30 AM

補強能力は、人間のフィードバックに基づいて調整するためにモデルを教えることにより、AI開発を揺さぶりました。それは、監督された学習基盤と報酬ベースの更新をブレンドして、より安全で、より正確に、そして本当に助けます

踊りましょう:私たちの人間のニューラルネットを微調整するための構造化された動き踊りましょう:私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク(C. elegansのものと同様)を広く研究してきました。 ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。