ホームページ >テクノロジー周辺機器 >AI >もう恥ずかしい「ビデオ会議」の心配はありません! Google CHI が新しいアーティファクト Visual Captions をリリースします: 写真を字幕アシスタントにしましょう
近年、仕事における「ビデオ会議」の割合が徐々に増加しており、メーカー各社も会議で言語の異なる人同士のコミュニケーションを円滑にするためにリアルタイム字幕などのさまざまな技術を開発しています。 。
しかし、別の問題点があります。会話の中で、相手に馴染みのない用語が出てきて、それを言葉で説明するのが難しい場合、たとえば食べ物などです。」 「すきやき」「先週休暇で公園に行きました」など、美しい景色を言葉で相手に伝えるのは難しく、「東京は日本の関東地方にあるので地図が必要だ」とさえ指摘される言葉だけだと相手はどんどん怒ってしまい、ますます混乱してしまいます。
最近、Google は人間に関するトップカンファレンスである ACM CHI (コンピューティング システムにおけるヒューマン ファクターに関する会議) でデモンストレーションを行いました。 - コンピュータ インタラクション リモート会議に新しい視覚ソリューションを導入するシステムであるビジュアル キャプションは、会話のコンテキストで画像を生成または取得して、複雑な概念やなじみのない概念に対する相手の理解を向上させることができます。
論文リンク: https://research.google/pubs/pub52074/
コードリンク: https://github.com/google/archat
Visual Captions システムは罰金に基づいています。 -tuned オープンな語彙会話で関連する視覚要素を積極的に推奨できる大規模な言語モデルで、オープンソース プロジェクト ARChat に統合されています。
ユーザー調査では、研究者は研究室内の 26 人の参加者を招待し、研究室外の人々と交流させました。10 人の参加者が評価しましたユーザーの 80% 以上が、ビデオ キャプションがさまざまなシナリオで有用かつ有意義な視覚的な推奨事項を提供し、コミュニケーション エクスペリエンスを向上できることに基本的に同意しました。
デザインアイデア開発前に、研究者らはまず、ソフトウェアエンジニア、研究者、UXデザイナー、ビジュアルアーティスト、学生、技術者や非専門家を含む10人の社内参加者を招待しました。 - リアルタイムのビジュアル強化サービスに対する特定のニーズと期待について議論するための技術的背景。
2 回の会議の後、既存のテキストから画像へのシステムに基づいて、主に 8 つの次元 (D1 から D8 として示される) を含む、予想されるプロトタイプ システムの基本設計が確立されました。
D1: タイミング、視覚強化システムはダイアログと同期または非同期で表示できます
D2: テーマ、目的に使用できます。音声コンテンツを表現し、理解する
##D3: ビジュアル、幅広いビジュアル コンテンツ、ビジュアル タイプ、ビジュアル ソースを使用できます#D4:スケール、会議のサイズに応じて、視覚的な拡張機能は異なる場合があります
#D5: スペース、ビデオ会議が同じ場所にあるのか、リモート設定で行われているのか
D6: プライバシー。これらの要素は、ビジュアルを非公開で表示するか、参加者間で共有するか、全員に公開するかにも影響します。
D7: 初期状態、参加者は、システムと対話するさまざまな方法、たとえば、さまざまなレベルの「イニシアチブ」、つまり、システムがいつチャットに介入するかをユーザーが自律的に決定できる D8: インタラクション、参加者は、たとえば、入力に音声やジェスチャーを使用するなど、さまざまな対話方法を想定しました。
##動的な視覚効果を使用して言語コミュニケーションのデザイン空間を強化する
研究者らは、予備的なフィードバックに基づいて、意味的に関連する視覚コンテンツ、タイプ、ソースの同期視覚効果の生成に重点を置くビデオ キャプション システムを設計しました。 検討会議のアイデアのほとんどは 1 対 1 のリモート会話に焦点を当てていますが、ビデオ キャプションは 1 対多の会話にも使用できます (例: 聴衆へのプレゼンテーション)多対多のシナリオ (複数人による会議ディスカッション) の展開。 さらに、会話を最もよく補完するビジュアルはディスカッションのコンテキストに大きく依存するため、目的に合わせて作成されたトレーニング セットが必要です。 研究者らは、言語、ビジュアルコンテンツ、タイプ、ソースを含む 1595 のクアドルプルを収集し、日常会話、講義、旅行ガイドなどを含むさまざまな文脈上のシナリオをカバーしました。 例えば、「笑顔」というビジュアルコンテンツや「絵文字」に対応して、ユーザーは「見たいです!」(ぜひ見たいです!)と発言します。 (絵文字) ビジュアル タイプと「パブリック検索」(パブリック サーチ) のビジュアル ソース。 「彼女はメキシコへの旅行について話しましたか?」 「メキシコへの旅行の写真」のビジュアル コンテンツ、「写真」と「個人アルバム」のビジュアル タイプに対応します。 「ビジュアルソース。 データセット VC 1.5K は現在オープンソースです。
データリンク: https://github.com/google/archat/tree/main/dataset
どのビジュアルが会話を補完するかを予測するために、研究者は VC1.5K を使用して大規模な言語モデルに基づいてビジュアル インテントをトレーニングしました。データセットの意図予測モデル。
トレーニング フェーズでは、各ビジュアル インテントが「 の の 」の形式に解析されます。
この形式に基づいて、システムはオープンボキャブラリーの会話を処理し、状況に応じてビジュアルコンテンツ、ビジュアルソース、およびビジュアルを予測できます。タイプ。
このアプローチは、キーワードベースのアプローチよりも実際には優れています。後者は自由に使える語彙を処理できないためです。たとえば、ユーザーが「あなたのエイミーおばさんが今週土曜日に訪問します」と言った場合、キーワードが一致しない場合、関連するビジュアル タイプまたはビジュアル ソースを推奨できません。
研究者らは、VC1.5K データセット内の 1276 (80%) サンプルを大規模言語モデルの微調整に使用し、残りの 319 (20%) サンプルをテスト データとして使用しました。レート インデックスは、微調整されたモデルのパフォーマンス、つまり、モデルが正しく予測するサンプル内の正しいトークンの割合を測定するために使用されます。
最終モデルは、トレーニング トークンの精度 97%、検証トークンの精度 87% を達成できます。
トレーニングされた視覚字幕モデルの実用性を評価するために、研究チームは89人の参加者に846のタスクを実行してもらい、その効果を評価してもらいました。 , 1 は強く反対することを意味し、7 は強く同意することを意味します。
実験結果によると、ほとんどの参加者は会話中に視覚効果を見ることを好み(Q1)、83%が5-やや同意以上の評価を与えました。
さらに、参加者は表示されたビジュアルが有益で有益であると感じており (Q2)、82% が 5 以上の評価を与え、高品質 (Q3) 、82% がそれ以上の評価を与えています。 5 ポイント以上、元の音声に関連している (Q4、84%)。
参加者は、予測されたビジュアル タイプ (Q5、87%) とビジュアル ソース (Q6、86%) が、対応する会話のコンテキスト内で正確であることも発見しました。
#研究参加者は視覚的予測モデルの技術的評価結果を評価します
この微調整された視覚的意図予測モデルに基づいて、研究者らは ARChat プラットフォーム上でビジュアル キャプションを開発しました。これにより、Google Meet などのビデオ会議プラットフォームのカメラ ストリームに新しいインタラクティブなウィジェットを直接追加できます。
システム ワークフローでは、ビデオ キャプションは自動的にユーザーの音声をキャプチャし、最後の文を取得し、100 ミリ秒ごとに視覚的意図予測モデルにデータを入力し、関連する視覚効果を取得できます。次に、推奨されるビジュアルを提供します。
##ビジュアル キャプションのシステム ワークフロー
Visual Captions では、ビジュアルを推奨するときに 3 つのレベルのオプションのイニシアチブを提供します。自動表示 (高イニシアチブ): システムが自律的にビジュアルを検索し、すべての会議参加者に公開して表示します。 ユーザーの介入なしで効果が得られます。
自動推奨 (中程度のイニシアチブ): 推奨されるビジュアルがプライベート スクロール ビューに表示され、ユーザーがビジュアルをクリックすると公開表示されます。このモードでは、システム ビジュアルが積極的に推奨されますが、いつ、何を表示するかはユーザーが決定します。
オンデマンドの提案 (主導権が低い): システムは、ユーザーがスペースバーを押した後にのみ視覚効果を推奨します。
研究者らは、管理されたラボ研究 (n = 26) とテスト段階導入研究 (n = 10) でビジュアル キャプション システムを評価し、参加者はリアルタイムのビジュアルが円滑化に役立つことを発見しました。なじみのない概念を説明し、言語のあいまいさを解決し、会話をより魅力的なものにすることで、生きた会話を実現します。
参加者のタスク負荷指数とリッカート スケールの評価 (VC なしと 3 つの異なるイニシアチブを含む) 性的 VC
#参加者は、現場で対話するためのさまざまなシステム設定、つまり、さまざまな会議シナリオでさまざまな程度の VC イニシアチブを使用することも報告しました以上がもう恥ずかしい「ビデオ会議」の心配はありません! Google CHI が新しいアーティファクト Visual Captions をリリースします: 写真を字幕アシスタントにしましょうの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。