ホームページ  >  記事  >  テクノロジー周辺機器  >  プロンプトはもう必要ありません。手だけでマルチモーダル対話システムをプレイできます。iChat が登場しました。

プロンプトはもう必要ありません。手だけでマルチモーダル対話システムをプレイできます。iChat が登場しました。

WBOY
WBOY転載
2023-05-15 17:55:061054ブラウズ

Xi Xiaoyao Technology Talk 原文
著者 | IQ はいたるところで低下しています

最近、多くのチームがユーザーフレンドリーな ChatGPT に基づいて再作成されており、その多くは比較的目を引くものです。結果。 InternChat の取り組みでは、マルチモーダルなタスクにおいて言語 (カーソルやジェスチャー) を超えた方法でチャットボットと対話することにより、ユーザーの使いやすさを重視しています。 InternChat という名前も興味深いもので、インタラクション、非言語、チャットボットの略で、iChat とも呼ばれます。純粋な言語に依存する既存の対話型システムとは異なり、iChat はポインティング指示を追加することにより、ユーザーとチャットボット間のコミュニケーションの効率を大幅に向上させます。さらに、作者は、キャプチャと視覚的な質問応答を実行できる Husky と呼ばれる大規模な視覚言語モデルも提供しており、わずか 70 億のパラメータで GPT-3.5-turbo を印象付けることもできます。

ただし、デモ Web サイトの人気のため、チームは正式に体験ページを一時的に閉鎖しました。まずは次のビデオで本作の内容を理解しましょう~

論文タイトル:
InternChat: 言語を超えたチャットボットとの対話によるビジョン中心のタスクの解決

紙のリンク:
https://www.php.cn/link/7c9966afcc510cf5a40621d1d92bdaf1

デモアドレス:
https://www.php.cn/link/e355ad06c5a89f911fbb0aff2de52435

プロジェクトアドレス:
https://www.php.cn /link/ 2d13d901966a8eaa7f9c943eba6a540b

システムの主な機能

作者はプロジェクトのホームページにいくつかのタスクのスクリーンショットを提供しているので、この対話型システムのいくつかの機能と効果を直感的に確認できます。 :

(a) 隠れたオブジェクトの削除

プロンプトはもう必要ありません。手だけでマルチモーダル対話システムをプレイできます。iChat が登場しました。


(b) インタラクティブな画像編集

プロンプトはもう必要ありません。手だけでマルチモーダル対話システムをプレイできます。iChat が登場しました。

(c) 画像生成

プロンプトはもう必要ありません。手だけでマルチモーダル対話システムをプレイできます。iChat が登場しました。

(d) インタラクティブな視覚的な質問と回答

プロンプトはもう必要ありません。手だけでマルチモーダル対話システムをプレイできます。iChat が登場しました。

##( e) インタラクティブな画像生成

プロンプトはもう必要ありません。手だけでマルチモーダル対話システムをプレイできます。iChat が登場しました。

(f) ビデオハイライトの説明

プロンプトはもう必要ありません。手だけでマルチモーダル対話システムをプレイできます。iChat が登場しました。

紙概要

ここで、この記事で言及されている 2 つの概念を最初に紹介します。

  • ビジョン中心のタスク: コンピューターが世界から見ているものを理解し、それに応じて反応するため。
  • 非言語的指示の形式でのコミュニケーション: カーソルや手のジェスチャーなどの指示動作。

プロンプトはもう必要ありません。手だけでマルチモーダル対話システムをプレイできます。iChat が登場しました。

▲図 1 iChat の全体的なアーキテクチャ

iChat は、視覚中心のタスクを実行するために、ポインティングと言語指示の利点を組み合わせています。図 1 に示すように、このシステムは 3 つの主要コンポーネントで構成されています:

  1. 画像またはビデオ上のポインティング命令を処理する認識ユニット;
  2. 言語を正確に解析できる補助制御を備えていますメカニズムの指示 LLM コントローラー;
  3. HuggingFace のさまざまなオンライン モデル、ユーザーがトレーニングしたプライベート モデル、およびその他のアプリケーション (電卓や検索エンジンなど) を統合するオープンワールド ツールキット。

これは 3 つのレベルで効果的に動作します。すなわち:

  1. 基本的なインタラクション;
  2. 言語ガイドによるインタラクション;
  3. ポイントツー言語による拡張インタラクション。

したがって、図 2 に示すように、純粋言語システムがタスクを完了できない場合でも、システムは複雑な対話型タスクを正常に実行できます。

プロンプトはもう必要ありません。手だけでマルチモーダル対話システムをプレイできます。iChat が登場しました。

▲図 2 言語駆動型の対話型システムの利点を示す

実験

まず、言語と非言語の組み合わせを見てみましょう。言語 対話型システムとの通信を改善するためのコマンド。純粋な言語命令と比較したこのハイブリッド モデルの利点を実証するために、研究チームはユーザー調査を実施しました。参加者は Visual ChatGPT と iChat を使用してチャットし、それを使用した経験についてフィードバックを与えました。表 1 と 2 の結果は、iChat が Visual ChatGPT よりも効率的で使いやすいことを示しています。

プロンプトはもう必要ありません。手だけでマルチモーダル対話システムをプレイできます。iChat が登場しました。

▲表 1 「何かを削除する」に関するユーザー調査

プロンプトはもう必要ありません。手だけでマルチモーダル対話システムをプレイできます。iChat が登場しました。

▲表 2 「何かに置き換える」「何か」 " ユーザー調査

概要

ただし、このシステムには次のようないくつかの制限があります。

  • iChat の効率は大幅に向上しました。程度は品質に依存します。そしてその基礎となるオープンソースモデルの精度。ただし、これらのモデルには、iChat のパフォーマンスに悪影響を与える制限やバイアスがある可能性があります。
  • ユーザーの対話がより複雑になったり、インスタンスの数が増加したりすると、システムは精度と応答時​​間を維持する必要がありますが、iChat にとってはそれが困難になる可能性があります。
  • さらに、現在のビジョンと言語ベースのモデルの間の学習可能な連携が不足しています。たとえば、指示データによって調整できる機能が欠如しています。
  • iChat は、トレーニング データ以外の新しい状況や異常な状況に応答することが難しく、パフォーマンスが低下する可能性があります。
  • さまざまなデバイスやプラットフォーム間でシームレスな統合を実現することは、さまざまなハードウェア機能、ソフトウェアの制限、アクセシビリティ要件のため、困難な場合があります。

プロジェクトのホームページに掲載されている計画リストには、まだ達成できていない目標がいくつかありますが、その中には、編集者が新しい対話システムで毎回経験しなければならない中国語の対話も含まれています。現時点では、このシステムはおそらく当面は中国語をサポートしていないと思われますが、解決策はないようです。ほとんどのマルチモーダル データセットは英語に基づいているため、英語から中国語への翻訳はオンライン リソースと処理時間を無駄にすると推定されています。中国化への道にはまだ時間がかかるだろう。

以上がプロンプトはもう必要ありません。手だけでマルチモーダル対話システムをプレイできます。iChat が登場しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。