


もう恥ずかしい「ビデオ会議」の心配はありません! Google CHI が新しいアーティファクト Visual Captions をリリースします: 写真を字幕アシスタントにしましょう
近年、仕事における「ビデオ会議」の割合が徐々に増加しており、メーカー各社も会議で言語の異なる人同士のコミュニケーションを円滑にするためにリアルタイム字幕などのさまざまな技術を開発しています。 。
しかし、別の問題点があります。会話の中で、相手に馴染みのない用語が出てきて、それを言葉で説明するのが難しい場合、たとえば食べ物などです。」 「すきやき」「先週休暇で公園に行きました」など、美しい景色を言葉で相手に伝えるのは難しく、「東京は日本の関東地方にあるので地図が必要だ」とさえ指摘される言葉だけだと相手はどんどん怒ってしまい、ますます混乱してしまいます。
最近、Google は人間に関するトップカンファレンスである ACM CHI (コンピューティング システムにおけるヒューマン ファクターに関する会議) でデモンストレーションを行いました。 - コンピュータ インタラクション リモート会議に新しい視覚ソリューションを導入するシステムであるビジュアル キャプションは、会話のコンテキストで画像を生成または取得して、複雑な概念やなじみのない概念に対する相手の理解を向上させることができます。
論文リンク: https://research.google/pubs/pub52074/
コードリンク: https://github.com/google/archat
Visual Captions システムは罰金に基づいています。 -tuned オープンな語彙会話で関連する視覚要素を積極的に推奨できる大規模な言語モデルで、オープンソース プロジェクト ARChat に統合されています。
ユーザー調査では、研究者は研究室内の 26 人の参加者を招待し、研究室外の人々と交流させました。10 人の参加者が評価しましたユーザーの 80% 以上が、ビデオ キャプションがさまざまなシナリオで有用かつ有意義な視覚的な推奨事項を提供し、コミュニケーション エクスペリエンスを向上できることに基本的に同意しました。
デザインアイデア開発前に、研究者らはまず、ソフトウェアエンジニア、研究者、UXデザイナー、ビジュアルアーティスト、学生、技術者や非専門家を含む10人の社内参加者を招待しました。 - リアルタイムのビジュアル強化サービスに対する特定のニーズと期待について議論するための技術的背景。
2 回の会議の後、既存のテキストから画像へのシステムに基づいて、主に 8 つの次元 (D1 から D8 として示される) を含む、予想されるプロトタイプ システムの基本設計が確立されました。
D1: タイミング、視覚強化システムはダイアログと同期または非同期で表示できます
D2: テーマ、目的に使用できます。音声コンテンツを表現し、理解する
##D3: ビジュアル、幅広いビジュアル コンテンツ、ビジュアル タイプ、ビジュアル ソースを使用できます#D4:スケール、会議のサイズに応じて、視覚的な拡張機能は異なる場合があります
#D5: スペース、ビデオ会議が同じ場所にあるのか、リモート設定で行われているのか
D6: プライバシー。これらの要素は、ビジュアルを非公開で表示するか、参加者間で共有するか、全員に公開するかにも影響します。
D7: 初期状態、参加者は、システムと対話するさまざまな方法、たとえば、さまざまなレベルの「イニシアチブ」、つまり、システムがいつチャットに介入するかをユーザーが自律的に決定できる D8: インタラクション、参加者は、たとえば、入力に音声やジェスチャーを使用するなど、さまざまな対話方法を想定しました。
研究者らは、予備的なフィードバックに基づいて、意味的に関連する視覚コンテンツ、タイプ、ソースの同期視覚効果の生成に重点を置くビデオ キャプション システムを設計しました。 検討会議のアイデアのほとんどは 1 対 1 のリモート会話に焦点を当てていますが、ビデオ キャプションは 1 対多の会話にも使用できます (例: 聴衆へのプレゼンテーション)多対多のシナリオ (複数人による会議ディスカッション) の展開。 さらに、会話を最もよく補完するビジュアルはディスカッションのコンテキストに大きく依存するため、目的に合わせて作成されたトレーニング セットが必要です。 研究者らは、言語、ビジュアルコンテンツ、タイプ、ソースを含む 1595 のクアドルプルを収集し、日常会話、講義、旅行ガイドなどを含むさまざまな文脈上のシナリオをカバーしました。 例えば、「笑顔」というビジュアルコンテンツや「絵文字」に対応して、ユーザーは「見たいです!」(ぜひ見たいです!)と発言します。 (絵文字) ビジュアル タイプと「パブリック検索」(パブリック サーチ) のビジュアル ソース。 「彼女はメキシコへの旅行について話しましたか?」 「メキシコへの旅行の写真」のビジュアル コンテンツ、「写真」と「個人アルバム」のビジュアル タイプに対応します。 「ビジュアルソース。 データセット VC 1.5K は現在オープンソースです。
データリンク: https://github.com/google/archat/tree/main/dataset
ビジュアル インテント予測モデル
どのビジュアルが会話を補完するかを予測するために、研究者は VC1.5K を使用して大規模な言語モデルに基づいてビジュアル インテントをトレーニングしました。データセットの意図予測モデル。
トレーニング フェーズでは、各ビジュアル インテントが「 の の 」の形式に解析されます。
この形式に基づいて、システムはオープンボキャブラリーの会話を処理し、状況に応じてビジュアルコンテンツ、ビジュアルソース、およびビジュアルを予測できます。タイプ。
このアプローチは、キーワードベースのアプローチよりも実際には優れています。後者は自由に使える語彙を処理できないためです。たとえば、ユーザーが「あなたのエイミーおばさんが今週土曜日に訪問します」と言った場合、キーワードが一致しない場合、関連するビジュアル タイプまたはビジュアル ソースを推奨できません。
研究者らは、VC1.5K データセット内の 1276 (80%) サンプルを大規模言語モデルの微調整に使用し、残りの 319 (20%) サンプルをテスト データとして使用しました。レート インデックスは、微調整されたモデルのパフォーマンス、つまり、モデルが正しく予測するサンプル内の正しいトークンの割合を測定するために使用されます。
最終モデルは、トレーニング トークンの精度 97%、検証トークンの精度 87% を達成できます。
実践調査
トレーニングされた視覚字幕モデルの実用性を評価するために、研究チームは89人の参加者に846のタスクを実行してもらい、その効果を評価してもらいました。 , 1 は強く反対することを意味し、7 は強く同意することを意味します。
実験結果によると、ほとんどの参加者は会話中に視覚効果を見ることを好み(Q1)、83%が5-やや同意以上の評価を与えました。
さらに、参加者は表示されたビジュアルが有益で有益であると感じており (Q2)、82% が 5 以上の評価を与え、高品質 (Q3) 、82% がそれ以上の評価を与えています。 5 ポイント以上、元の音声に関連している (Q4、84%)。
参加者は、予測されたビジュアル タイプ (Q5、87%) とビジュアル ソース (Q6、86%) が、対応する会話のコンテキスト内で正確であることも発見しました。
#研究参加者は視覚的予測モデルの技術的評価結果を評価します
この微調整された視覚的意図予測モデルに基づいて、研究者らは ARChat プラットフォーム上でビジュアル キャプションを開発しました。これにより、Google Meet などのビデオ会議プラットフォームのカメラ ストリームに新しいインタラクティブなウィジェットを直接追加できます。
システム ワークフローでは、ビデオ キャプションは自動的にユーザーの音声をキャプチャし、最後の文を取得し、100 ミリ秒ごとに視覚的意図予測モデルにデータを入力し、関連する視覚効果を取得できます。次に、推奨されるビジュアルを提供します。
##ビジュアル キャプションのシステム ワークフロー
Visual Captions では、ビジュアルを推奨するときに 3 つのレベルのオプションのイニシアチブを提供します。自動表示 (高イニシアチブ): システムが自律的にビジュアルを検索し、すべての会議参加者に公開して表示します。 ユーザーの介入なしで効果が得られます。
自動推奨 (中程度のイニシアチブ): 推奨されるビジュアルがプライベート スクロール ビューに表示され、ユーザーがビジュアルをクリックすると公開表示されます。このモードでは、システム ビジュアルが積極的に推奨されますが、いつ、何を表示するかはユーザーが決定します。
オンデマンドの提案 (主導権が低い): システムは、ユーザーがスペースバーを押した後にのみ視覚効果を推奨します。
研究者らは、管理されたラボ研究 (n = 26) とテスト段階導入研究 (n = 10) でビジュアル キャプション システムを評価し、参加者はリアルタイムのビジュアルが円滑化に役立つことを発見しました。なじみのない概念を説明し、言語のあいまいさを解決し、会話をより魅力的なものにすることで、生きた会話を実現します。
参加者のタスク負荷指数とリッカート スケールの評価 (VC なしと 3 つの異なるイニシアチブを含む) 性的 VC
#参加者は、現場で対話するためのさまざまなシステム設定、つまり、さまざまな会議シナリオでさまざまな程度の VC イニシアチブを使用することも報告しました以上がもう恥ずかしい「ビデオ会議」の心配はありません! Google CHI が新しいアーティファクト Visual Captions をリリースします: 写真を字幕アシスタントにしましょうの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。

ヨーロッパの野心的なAI大陸行動計画は、人工知能のグローバルリーダーとしてEUを確立することを目指しています。 重要な要素は、AI GigaFactoriesのネットワークの作成であり、それぞれが約100,000の高度なAIチップを収容しています。

AIエージェントアプリケーションに対するMicrosoftの統一アプローチ:企業の明確な勝利 新しいAIエージェント機能に関するマイクロソフトの最近の発表は、その明確で統一されたプレゼンテーションに感銘を受けました。 TEで行き詰まった多くのハイテクアナウンスとは異なり

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。 これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

IBMのZ17メインフレーム:AIを強化した事業運営の統合 先月、IBMのニューヨーク本社で、Z17の機能のプレビューを受け取りました。 Z16の成功に基づいて構築(2022年に開始され、持続的な収益の成長の実証

揺るぎない自信のロックを解除し、外部検証の必要性を排除します! これらの5つのCHATGPTプロンプトは、完全な自立と自己認識の変革的な変化に向けて導きます。 ブラケットをコピー、貼り付け、カスタマイズするだけです

人工知能のセキュリティおよび研究会社であるAnthropicによる最近の[研究]は、これらの複雑なプロセスについての真実を明らかにし始め、私たち自身の認知領域に不穏に似た複雑さを示しています。自然知能と人工知能は、私たちが思っているよりも似ているかもしれません。 内部スヌーピング:人類の解釈可能性研究 人類によって行われた研究からの新しい発見は、AIの内部コンピューティングをリバースエンジニアリングすることを目的とする機械的解釈可能性の分野の大きな進歩を表しています。AIが何をするかを観察するだけでなく、人工ニューロンレベルでそれがどのように行うかを理解します。 誰かが特定のオブジェクトを見たり、特定のアイデアについて考えたりしたときに、どのニューロンが発射するかを描くことによって脳を理解しようとすることを想像してください。 a

Qualcomm's DragonWing:企業とインフラストラクチャへの戦略的な飛躍 Qualcommは、新しいDragonwingブランドで世界的に企業やインフラ市場をターゲットにして、モバイルを超えてリーチを積極的に拡大しています。 これは単なるレブランではありません


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

Dreamweaver Mac版
ビジュアル Web 開発ツール

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

ホットトピック



