検索
ホームページテクノロジー周辺機器AIもう恥ずかしい「ビデオ会議」の心配はありません! Google CHI が新しいアーティファクト Visual Captions をリリースします: 写真を字幕アシスタントにしましょう

近年、仕事における「ビデオ会議」の割合が徐々に増加しており、メーカー各社も会議で言語の異なる人同士のコミュニケーションを円滑にするためにリアルタイム字幕などのさまざまな技術を開発しています。 。

しかし、別の問題点があります。会話の中で、相手に馴染みのない用語が出てきて、それを言葉で説明するのが難しい場合、たとえば食べ物などです。」 「すきやき」「先週休暇で公園に行きました」など、美しい景色を言葉で相手に伝えるのは難しく、「東京は日本の関東地方にあるので地図が必要だ」とさえ指摘される言葉だけだと相手はどんどん怒ってしまい、ますます混乱してしまいます。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

最近、Google は人間に関するトップカンファレンスである ACM CHI (コンピューティング システムにおけるヒューマン ファクターに関する会議) でデモンストレーションを行いました。 - コンピュータ インタラクション リモート会議に新しい視覚ソリューションを導入するシステムであるビジュアル キャプションは、会話のコンテキストで画像を生成または取得して、複雑な概念やなじみのない概念に対する相手の理解を向上させることができます。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

論文リンク: https://research.google/pubs/pub52074/

コードリンク: https://github.com/google/archat

Visual Captions システムは罰金に基づいています。 -tuned オープンな語彙会話で関連する視覚要素を積極的に推奨できる大規模な言語モデルで、オープンソース プロジェクト ARChat に統合されています。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

ユーザー調査では、研究者は研究室内の 26 人の参加者を招待し、研究室外の人々と交流させました。10 人の参加者が評価しましたユーザーの 80% 以上が、ビデオ キャプションがさまざまなシナリオで有用かつ有意義な視覚的な推奨事項を提供し、コミュニケーション エクスペリエンスを向上できることに基本的に同意しました。

デザインアイデア

開発前に、研究者らはまず、ソフトウェアエンジニア、研究者、UXデザイナー、ビジュアルアーティスト、学生、技術者や非専門家を含む10人の社内参加者を招待しました。 - リアルタイムのビジュアル強化サービスに対する特定のニーズと期待について議論するための技術的背景。

2 回の会議の後、既存のテキストから画像へのシステムに基づいて、主に 8 つの次元 (D1 から D8 として示される) を含む、予想されるプロトタイプ システムの基本設計が確立されました。

D1: タイミング、視覚強化システムはダイアログと同期または非同期で表示できます

D2: テーマ、目的に使用できます。音声コンテンツを表現し、理解する

##D3: ビジュアル、幅広いビジュアル コンテンツ、ビジュアル タイプ、ビジュアル ソースを使用できます

#D4:スケール、会議のサイズに応じて、視覚的な拡張機能は異なる場合があります

#D5: スペース、ビデオ会議が同じ場所にあるのか、リモート設定で行われているのか

D6: プライバシー。これらの要素は、ビジュアルを非公開で表示するか、参加者間で共有するか、全員に公開するかにも影響します。

D7: 初期状態、参加者は、システムと対話するさまざまな方法、たとえば、さまざまなレベルの「イニシアチブ」、つまり、システムがいつチャットに介入するかをユーザーが自律的に決定できる D8: インタラクション、参加者は、たとえば、入力に音声やジェスチャーを使用するなど、さまざまな対話方法を想定しました。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

##動的な視覚効果を使用して言語コミュニケーションのデザイン空間を強化する

研究者らは、予備的なフィードバックに基づいて、意味的に関連する視覚コンテンツ、タイプ、ソースの同期視覚効果の生成に重点を置くビデオ キャプション システムを設計しました。

検討会議のアイデアのほとんどは 1 対 1 のリモート会話に焦点を当てていますが、ビデオ キャプションは 1 対多の会話にも使用できます (例: 聴衆へのプレゼンテーション)多対多のシナリオ (複数人による会議ディスカッション) の展開。

さらに、会話を最もよく補完するビジュアルはディスカッションのコンテキストに大きく依存するため、目的に合わせて作成されたトレーニング セットが必要です。

研究者らは、言語、ビジュアルコンテンツ、タイプ、ソースを含む 1595 のクアドルプルを収集し、日常会話、講義、旅行ガイドなどを含むさまざまな文脈上のシナリオをカバーしました。

例えば、「笑顔」というビジュアルコンテンツや「絵文字」に対応して、ユーザーは「見たいです!」(ぜひ見たいです!)と発言します。 (絵文字) ビジュアル タイプと「パブリック検索」(パブリック サーチ) のビジュアル ソース。

「彼女はメキシコへの旅行について話しましたか?」 「メキシコへの旅行の写真」のビジュアル コンテンツ、「写真」と「個人アルバム」のビジュアル タイプに対応します。 「ビジュアルソース。

データセット VC 1.5K は現在オープンソースです。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

データリンク: https://github.com/google/archat/tree/main/dataset

ビジュアル インテント予測モデル

どのビジュアルが会話を補完するかを予測するために、研究者は VC1.5K を使用して大規模な言語モデルに基づいてビジュアル インテントをトレーニングしました。データセットの意図予測モデル。

トレーニング フェーズでは、各ビジュアル インテントが「 の の 」の形式に解析されます。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

この形式に基づいて、システムはオープンボキャブラリーの会話を処理し、状況に応じてビジュアルコンテンツ、ビジュアルソース、およびビジュアルを予測できます。タイプ。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

このアプローチは、キーワードベースのアプローチよりも実際には優れています。後者は自由に使える語彙を処理できないためです。たとえば、ユーザーが「あなたのエイミーおばさんが今週土曜日に訪問します」と言った場合、キーワードが一致しない場合、関連するビジュアル タイプまたはビジュアル ソースを推奨できません。

研究者らは、VC1.5K データセット内の 1276 (80%) サンプルを大規模言語モデルの微調整に使用し、残りの 319 (20%) サンプルをテスト データとして使用しました。レート インデックスは、微調整されたモデルのパフォーマンス、つまり、モデルが正しく予測するサンプル内の正しいトークンの割合を測定するために使用されます。

最終モデルは、トレーニング トークンの精度 97%、検証トークンの精度 87% を達成できます。

実践調査

トレーニングされた視覚字幕モデルの実用性を評価するために、研究チームは89人の参加者に846のタスクを実行してもらい、その効果を評価してもらいました。 , 1 は強く反対することを意味し、7 は強く同意することを意味します。

実験結果によると、ほとんどの参加者は会話中に視覚効果を見ることを好み(Q1)、83%が5-やや同意以上の評価を与えました。

さらに、参加者は表示されたビジュアルが有益で有益であると感じており (Q2)、82% が 5 以上の評価を与え、高品質 (Q3) 、82% がそれ以上の評価を与えています。 5 ポイント以上、元の音声に関連している (Q4、84%)。

参加者は、予測されたビジュアル タイプ (Q5、87%) とビジュアル ソース (Q6、86%) が、対応する会話のコンテキスト内で正確であることも発見しました。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

#研究参加者は視覚的予測モデルの技術的評価結果を評価します

この微調整された視覚的意図予測モデルに基づいて、研究者らは ARChat プラットフォーム上でビジュアル キャプションを開発しました。これにより、Google Meet などのビデオ会議プラットフォームのカメラ ストリームに新しいインタラクティブなウィジェットを直接追加できます。

システム ワークフローでは、ビデオ キャプションは自動的にユーザーの音声をキャプチャし、最後の文を取得し、100 ミリ秒ごとに視覚的意図予測モデルにデータを入力し、関連する視覚効果を取得できます。次に、推奨されるビジュアルを提供します。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

##ビジュアル キャプションのシステム ワークフロー

Visual Captions では、ビジュアルを推奨するときに 3 つのレベルのオプションのイニシアチブを提供します。

自動表示 (高イニシアチブ): システムが自律的にビジュアルを検索し、すべての会議参加者に公開して表示します。 ユーザーの介入なしで効果が得られます。

自動推奨 (中程度のイニシアチブ): 推奨されるビジュアルがプライベート スクロール ビューに表示され、ユーザーがビジュアルをクリックすると公開表示されます。このモードでは、システム ビジュアルが積極的に推奨されますが、いつ、何を表示するかはユーザーが決定します。

オンデマンドの提案 (主導権が低い): システムは、ユーザーがスペースバーを押した後にのみ視覚効果を推奨します。

研究者らは、管理されたラボ研究 (n = 26) とテスト段階導入研究 (n = 10) でビジュアル キャプション システムを評価し、参加者はリアルタイムのビジュアルが円滑化に役立つことを発見しました。なじみのない概念を説明し、言語のあいまいさを解決し、会話をより魅力的なものにすることで、生きた会話を実現します。

再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手

参加者のタスク負荷指数とリッカート スケールの評価 (VC なしと 3 つの異なるイニシアチブを含む) 性的 VC

#参加者は、現場で対話するためのさまざまなシステム設定、つまり、さまざまな会議シナリオでさまざまな程度の VC イニシアチブを使用することも報告しました

以上がもう恥ずかしい「ビデオ会議」の心配はありません! Google CHI が新しいアーティファクト Visual Captions をリリースします: 写真を字幕アシスタントにしましょうの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
最高の迅速なエンジニアリング技術の最新の年次編集最高の迅速なエンジニアリング技術の最新の年次編集Apr 10, 2025 am 11:22 AM

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。

ヨーロッパのAI大陸行動計画:GigaFactories、Data Labs、Green AIヨーロッパのAI大陸行動計画:GigaFactories、Data Labs、Green AIApr 10, 2025 am 11:21 AM

ヨーロッパの野心的なAI大陸行動計画は、人工知能のグローバルリーダーとしてEUを確立することを目指しています。 重要な要素は、AI GigaFactoriesのネットワークの作成であり、それぞれが約100,000の高度なAIチップを収容しています。

Microsoftの簡単なエージェントストーリーは、より多くのファンを作成するのに十分ですか?Microsoftの簡単なエージェントストーリーは、より多くのファンを作成するのに十分ですか?Apr 10, 2025 am 11:20 AM

AIエージェントアプリケーションに対するMicrosoftの統一アプローチ:企業の明確な勝利 新しいAIエージェント機能に関するマイクロソフトの最近の発表は、その明確で統一されたプレゼンテーションに感銘を受けました。 TEで行き詰まった多くのハイテクアナウンスとは異なり

従業員へのAI戦略の販売:Shopify CEOのマニフェスト従業員へのAI戦略の販売:Shopify CEOのマニフェストApr 10, 2025 am 11:19 AM

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。 これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

IBMは、完全なAI統合でZ17メインフレームを起動しますIBMは、完全なAI統合でZ17メインフレームを起動しますApr 10, 2025 am 11:18 AM

IBMのZ17メインフレーム:AIを強化した事業運営の統合 先月、IBMのニューヨーク本社で、Z17の機能のプレビューを受け取りました。 Z16の成功に基づいて構築(2022年に開始され、持続的な収益の成長の実証

5 chatgptプロンプトは他の人に依存して停止し、自分を完全に信頼する5 chatgptプロンプトは他の人に依存して停止し、自分を完全に信頼するApr 10, 2025 am 11:17 AM

揺るぎない自信のロックを解除し、外部検証の必要性を排除します! これらの5つのCHATGPTプロンプトは、完全な自立と自己認識の変革的な変化に向けて導きます。 ブラケットをコピー、貼り付け、カスタマイズするだけです

AIはあなたの心に危険なほど似ていますAIはあなたの心に危険なほど似ていますApr 10, 2025 am 11:16 AM

人工知能のセキュリティおよび研究会社であるAnthropicによる最近の[研究]は、これらの複雑なプロセスについての真実を明らかにし始め、私たち自身の認知領域に不穏に似た複雑さを示しています。自然知能と人工知能は、私たちが思っているよりも似ているかもしれません。 内部スヌーピング:人類の解釈可能性研究 人類によって行われた研究からの新しい発見は、AIの内部コンピューティングをリバースエンジニアリングすることを目的とする機械的解釈可能性の分野の大きな進歩を表しています。AIが何をするかを観察するだけでなく、人工ニューロンレベルでそれがどのように行うかを理解します。 誰かが特定のオブジェクトを見たり、特定のアイデアについて考えたりしたときに、どのニューロンが発射するかを描くことによって脳を理解しようとすることを想像してください。 a

Dragonwingは、QualcommのEdge Momentumを紹介していますDragonwingは、QualcommのEdge Momentumを紹介していますApr 10, 2025 am 11:14 AM

Qualcomm's DragonWing:企業とインフラストラクチャへの戦略的な飛躍 Qualcommは、新しいDragonwingブランドで世界的に企業やインフラ市場をターゲットにして、モバイルを超えてリーチを積極的に拡大しています。 これは単なるレブランではありません

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい