もう恥ずかしい「ビデオ会議」の心配はありません！ Google CHI が新しいアーティファクト Visual Captions をリリースします: 写真を字幕アシスタントにしましょう

もう恥ずかしい「ビデオ会議」の心配はありません！ Google CHI が新しいアーティファクト Visual Captions をリリースします: 写真を字幕アシスタントにしましょう

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 12, 2023 pm 07:10 PM

グーグルビデオ

近年、仕事における「ビデオ会議」の割合が徐々に増加しており、メーカー各社も会議で言語の異なる人同士のコミュニケーションを円滑にするためにリアルタイム字幕などのさまざまな技術を開発しています。。

しかし、別の問題点があります。会話の中で、相手に馴染みのない用語が出てきて、それを言葉で説明するのが難しい場合、たとえば食べ物などです。」「すきやき」「先週休暇で公園に行きました」など、美しい景色を言葉で相手に伝えるのは難しく、「東京は日本の関東地方にあるので地図が必要だ」とさえ指摘される言葉だけだと相手はどんどん怒ってしまい、ますます混乱してしまいます。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

最近、Google は人間に関するトップカンファレンスである ACM CHI (コンピューティングシステムにおけるヒューマンファクターに関する会議) でデモンストレーションを行いました。 - コンピュータインタラクションリモート会議に新しい視覚ソリューションを導入するシステムであるビジュアルキャプションは、会話のコンテキストで画像を生成または取得して、複雑な概念やなじみのない概念に対する相手の理解を向上させることができます。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

論文リンク: https://research.google/pubs/pub52074/

コードリンク: https://github.com/google/archat

Visual Captions システムは罰金に基づいています。 -tuned オープンな語彙会話で関連する視覚要素を積極的に推奨できる大規模な言語モデルで、オープンソースプロジェクト ARChat に統合されています。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

ユーザー調査では、研究者は研究室内の 26 人の参加者を招待し、研究室外の人々と交流させました。10 人の参加者が評価しましたユーザーの 80% 以上が、ビデオキャプションがさまざまなシナリオで有用かつ有意義な視覚的な推奨事項を提供し、コミュニケーションエクスペリエンスを向上できることに基本的に同意しました。

デザインアイデア

開発前に、研究者らはまず、ソフトウェアエンジニア、研究者、UXデザイナー、ビジュアルアーティスト、学生、技術者や非専門家を含む10人の社内参加者を招待しました。 - リアルタイムのビジュアル強化サービスに対する特定のニーズと期待について議論するための技術的背景。

2 回の会議の後、既存のテキストから画像へのシステムに基づいて、主に 8 つの次元 (D1 から D8 として示される) を含む、予想されるプロトタイプシステムの基本設計が確立されました。

D1: タイミング、視覚強化システムはダイアログと同期または非同期で表示できます

D2: テーマ、目的に使用できます。音声コンテンツを表現し、理解する

##D3: ビジュアル、幅広いビジュアルコンテンツ、ビジュアルタイプ、ビジュアルソースを使用できます

#D4:スケール、会議のサイズに応じて、視覚的な拡張機能は異なる場合があります

#D5: スペース、ビデオ会議が同じ場所にあるのか、リモート設定で行われているのか

D6: プライバシー。これらの要素は、ビジュアルを非公開で表示するか、参加者間で共有するか、全員に公開するかにも影響します。

D7: 初期状態、参加者は、システムと対話するさまざまな方法、たとえば、さまざまなレベルの「イニシアチブ」、つまり、システムがいつチャットに介入するかをユーザーが自律的に決定できる D8: インタラクション、参加者は、たとえば、入力に音声やジェスチャーを使用するなど、さまざまな対話方法を想定しました。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

##動的な視覚効果を使用して言語コミュニケーションのデザイン空間を強化する

研究者らは、予備的なフィードバックに基づいて、意味的に関連する視覚コンテンツ、タイプ、ソースの同期視覚効果の生成に重点を置くビデオキャプションシステムを設計しました。

検討会議のアイデアのほとんどは 1 対 1 のリモート会話に焦点を当てていますが、ビデオキャプションは 1 対多の会話にも使用できます (例: 聴衆へのプレゼンテーション)多対多のシナリオ (複数人による会議ディスカッション) の展開。

さらに、会話を最もよく補完するビジュアルはディスカッションのコンテキストに大きく依存するため、目的に合わせて作成されたトレーニングセットが必要です。

研究者らは、言語、ビジュアルコンテンツ、タイプ、ソースを含む 1595 のクアドルプルを収集し、日常会話、講義、旅行ガイドなどを含むさまざまな文脈上のシナリオをカバーしました。

例えば、「笑顔」というビジュアルコンテンツや「絵文字」に対応して、ユーザーは「見たいです！」（ぜひ見たいです！）と発言します。 (絵文字) ビジュアルタイプと「パブリック検索」(パブリックサーチ) のビジュアルソース。

「彼女はメキシコへの旅行について話しましたか?」「メキシコへの旅行の写真」のビジュアルコンテンツ、「写真」と「個人アルバム」のビジュアルタイプに対応します。「ビジュアルソース。

データセット VC 1.5K は現在オープンソースです。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

データリンク: https://github.com/google/archat/tree/main/dataset

ビジュアルインテント予測モデル

どのビジュアルが会話を補完するかを予測するために、研究者は VC1.5K を使用して大規模な言語モデルに基づいてビジュアルインテントをトレーニングしました。データセットの意図予測モデル。

トレーニングフェーズでは、各ビジュアルインテントが「のの」の形式に解析されます。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

この形式に基づいて、システムはオープンボキャブラリーの会話を処理し、状況に応じてビジュアルコンテンツ、ビジュアルソース、およびビジュアルを予測できます。タイプ。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

このアプローチは、キーワードベースのアプローチよりも実際には優れています。後者は自由に使える語彙を処理できないためです。たとえば、ユーザーが「あなたのエイミーおばさんが今週土曜日に訪問します」と言った場合、キーワードが一致しない場合、関連するビジュアルタイプまたはビジュアルソースを推奨できません。

研究者らは、VC1.5K データセット内の 1276 (80%) サンプルを大規模言語モデルの微調整に使用し、残りの 319 (20%) サンプルをテストデータとして使用しました。レートインデックスは、微調整されたモデルのパフォーマンス、つまり、モデルが正しく予測するサンプル内の正しいトークンの割合を測定するために使用されます。

最終モデルは、トレーニングトークンの精度 97%、検証トークンの精度 87% を達成できます。

実践調査

トレーニングされた視覚字幕モデルの実用性を評価するために、研究チームは89人の参加者に846のタスクを実行してもらい、その効果を評価してもらいました。 , 1 は強く反対することを意味し、7 は強く同意することを意味します。

実験結果によると、ほとんどの参加者は会話中に視覚効果を見ることを好み(Q1)、83%が5-やや同意以上の評価を与えました。

さらに、参加者は表示されたビジュアルが有益で有益であると感じており (Q2)、82% が 5 以上の評価を与え、高品質 (Q3) 、82% がそれ以上の評価を与えています。 5 ポイント以上、元の音声に関連している (Q4、84%)。

参加者は、予測されたビジュアルタイプ (Q5、87%) とビジュアルソース (Q6、86%) が、対応する会話のコンテキスト内で正確であることも発見しました。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

#研究参加者は視覚的予測モデルの技術的評価結果を評価します

この微調整された視覚的意図予測モデルに基づいて、研究者らは ARChat プラットフォーム上でビジュアルキャプションを開発しました。これにより、Google Meet などのビデオ会議プラットフォームのカメラストリームに新しいインタラクティブなウィジェットを直接追加できます。

システムワークフローでは、ビデオキャプションは自動的にユーザーの音声をキャプチャし、最後の文を取得し、100 ミリ秒ごとに視覚的意図予測モデルにデータを入力し、関連する視覚効果を取得できます。次に、推奨されるビジュアルを提供します。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

##ビジュアルキャプションのシステムワークフロー

Visual Captions では、ビジュアルを推奨するときに 3 つのレベルのオプションのイニシアチブを提供します。

自動表示 (高イニシアチブ): システムが自律的にビジュアルを検索し、すべての会議参加者に公開して表示します。ユーザーの介入なしで効果が得られます。

自動推奨 (中程度のイニシアチブ): 推奨されるビジュアルがプライベートスクロールビューに表示され、ユーザーがビジュアルをクリックすると公開表示されます。このモードでは、システムビジュアルが積極的に推奨されますが、いつ、何を表示するかはユーザーが決定します。

オンデマンドの提案 (主導権が低い): システムは、ユーザーがスペースバーを押した後にのみ視覚効果を推奨します。

研究者らは、管理されたラボ研究 (n = 26) とテスト段階導入研究 (n = 10) でビジュアルキャプションシステムを評価し、参加者はリアルタイムのビジュアルが円滑化に役立つことを発見しました。なじみのない概念を説明し、言語のあいまいさを解決し、会話をより魅力的なものにすることで、生きた会話を実現します。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

参加者のタスク負荷指数とリッカートスケールの評価 (VC なしと 3 つの異なるイニシアチブを含む) 性的 VC

#参加者は、現場で対話するためのさまざまなシステム設定、つまり、さまざまな会議シナリオでさまざまな程度の VC イニシアチブを使用することも報告しました

以上がもう恥ずかしい「ビデオ会議」の心配はありません！ Google CHI が新しいアーティファクト Visual Captions をリリースします: 写真を字幕アシスタントにしましょうの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。

ヨーロッパのAI大陸行動計画：GigaFactories、Data Labs、Green AIApr 10, 2025 am 11:21 AM

ヨーロッパの野心的なAI大陸行動計画は、人工知能のグローバルリーダーとしてEUを確立することを目指しています。重要な要素は、AI GigaFactoriesのネットワークの作成であり、それぞれが約100,000の高度なAIチップを収容しています。

Microsoftの簡単なエージェントストーリーは、より多くのファンを作成するのに十分ですか？Apr 10, 2025 am 11:20 AM

AIエージェントアプリケーションに対するMicrosoftの統一アプローチ：企業の明確な勝利新しいAIエージェント機能に関するマイクロソフトの最近の発表は、その明確で統一されたプレゼンテーションに感銘を受けました。 TEで行き詰まった多くのハイテクアナウンスとは異なり

従業員へのAI戦略の販売：Shopify CEOのマニフェストApr 10, 2025 am 11:19 AM

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

IBMは、完全なAI統合でZ17メインフレームを起動しますApr 10, 2025 am 11:18 AM

IBMのZ17メインフレーム：AIを強化した事業運営の統合先月、IBMのニューヨーク本社で、Z17の機能のプレビューを受け取りました。 Z16の成功に基づいて構築（2022年に開始され、持続的な収益の成長の実証

5 chatgptプロンプトは他の人に依存して停止し、自分を完全に信頼するApr 10, 2025 am 11:17 AM

揺るぎない自信のロックを解除し、外部検証の必要性を排除します！これらの5つのCHATGPTプロンプトは、完全な自立と自己認識の変革的な変化に向けて導きます。ブラケットをコピー、貼り付け、カスタマイズするだけです

AIはあなたの心に危険なほど似ていますApr 10, 2025 am 11:16 AM

人工知能のセキュリティおよび研究会社であるAnthropicによる最近の[研究]は、これらの複雑なプロセスについての真実を明らかにし始め、私たち自身の認知領域に不穏に似た複雑さを示しています。自然知能と人工知能は、私たちが思っているよりも似ているかもしれません。内部スヌーピング：人類の解釈可能性研究人類によって行われた研究からの新しい発見は、AIの内部コンピューティングをリバースエンジニアリングすることを目的とする機械的解釈可能性の分野の大きな進歩を表しています。AIが何をするかを観察するだけでなく、人工ニューロンレベルでそれがどのように行うかを理解します。誰かが特定のオブジェクトを見たり、特定のアイデアについて考えたりしたときに、どのニューロンが発射するかを描くことによって脳を理解しようとすることを想像してください。 a

Dragonwingは、QualcommのEdge Momentumを紹介していますApr 10, 2025 am 11:14 AM

Qualcomm's DragonWing：企業とインフラストラクチャへの戦略的な飛躍 Qualcommは、新しいDragonwingブランドで世界的に企業やインフラ市場をターゲットにして、モバイルを超えてリーチを積極的に拡大しています。これは単なるレブランではありません

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

Dreamweaver Mac版

ビジュアル Web 開発ツール

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、