ホームページ > 記事 > テクノロジー周辺機器 > プロンプトはもう必要ありません。手だけでマルチモーダル対話システムをプレイできます。iChat が登場しました。
Xi Xiaoyao Technology Talk 原文
著者 | IQ はいたるところで低下しています
最近、多くのチームがユーザーフレンドリーな ChatGPT に基づいて再作成されており、その多くは比較的目を引くものです。結果。 InternChat の取り組みでは、マルチモーダルなタスクにおいて言語 (カーソルやジェスチャー) を超えた方法でチャットボットと対話することにより、ユーザーの使いやすさを重視しています。 InternChat という名前も興味深いもので、インタラクション、非言語、チャットボットの略で、iChat とも呼ばれます。純粋な言語に依存する既存の対話型システムとは異なり、iChat はポインティング指示を追加することにより、ユーザーとチャットボット間のコミュニケーションの効率を大幅に向上させます。さらに、作者は、キャプチャと視覚的な質問応答を実行できる Husky と呼ばれる大規模な視覚言語モデルも提供しており、わずか 70 億のパラメータで GPT-3.5-turbo を印象付けることもできます。
ただし、デモ Web サイトの人気のため、チームは正式に体験ページを一時的に閉鎖しました。まずは次のビデオで本作の内容を理解しましょう~
論文タイトル:
InternChat: 言語を超えたチャットボットとの対話によるビジョン中心のタスクの解決
紙のリンク:
https://www.php.cn/link/7c9966afcc510cf5a40621d1d92bdaf1
デモアドレス:
https://www.php.cn/link/e355ad06c5a89f911fbb0aff2de52435
プロジェクトアドレス:
https://www.php.cn /link/ 2d13d901966a8eaa7f9c943eba6a540b
作者はプロジェクトのホームページにいくつかのタスクのスクリーンショットを提供しているので、この対話型システムのいくつかの機能と効果を直感的に確認できます。 :
(a) 隠れたオブジェクトの削除
(b) インタラクティブな画像編集
(c) 画像生成
(d) インタラクティブな視覚的な質問と回答
##( e) インタラクティブな画像生成
(f) ビデオハイライトの説明
ここで、この記事で言及されている 2 つの概念を最初に紹介します。
▲図 1 iChat の全体的なアーキテクチャ
iChat は、視覚中心のタスクを実行するために、ポインティングと言語指示の利点を組み合わせています。図 1 に示すように、このシステムは 3 つの主要コンポーネントで構成されています:
これは 3 つのレベルで効果的に動作します。すなわち:
したがって、図 2 に示すように、純粋言語システムがタスクを完了できない場合でも、システムは複雑な対話型タスクを正常に実行できます。
▲図 2 言語駆動型の対話型システムの利点を示す
まず、言語と非言語の組み合わせを見てみましょう。言語 対話型システムとの通信を改善するためのコマンド。純粋な言語命令と比較したこのハイブリッド モデルの利点を実証するために、研究チームはユーザー調査を実施しました。参加者は Visual ChatGPT と iChat を使用してチャットし、それを使用した経験についてフィードバックを与えました。表 1 と 2 の結果は、iChat が Visual ChatGPT よりも効率的で使いやすいことを示しています。
▲表 1 「何かを削除する」に関するユーザー調査
▲表 2 「何かに置き換える」「何か」 " ユーザー調査
ただし、このシステムには次のようないくつかの制限があります。
プロジェクトのホームページに掲載されている計画リストには、まだ達成できていない目標がいくつかありますが、その中には、編集者が新しい対話システムで毎回経験しなければならない中国語の対話も含まれています。現時点では、このシステムはおそらく当面は中国語をサポートしていないと思われますが、解決策はないようです。ほとんどのマルチモーダル データセットは英語に基づいているため、英語から中国語への翻訳はオンライン リソースと処理時間を無駄にすると推定されています。中国化への道にはまだ時間がかかるだろう。
以上がプロンプトはもう必要ありません。手だけでマルチモーダル対話システムをプレイできます。iChat が登場しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。