再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手-人工智能-PHP中文网

首页

科技周边

人工智能

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 12, 2023 pm 07:10 PM

谷歌视频

最近几年，「视频会议」在工作中的占比逐渐增加，厂商也开发了各种诸如实时字幕等技术以方便会议中不同语言的人之间交流。

但还有一个痛点，要是对话中提到了一些对方很陌生的名词，并且很难用语言描述出来，比如食物「寿喜烧」，或是说「上周去了某个公园度假」，很难用语言给对方描述出的美景；甚至是指出「东京位于日本关东地区」，需要一张地图来展示等，如果只用语言可能会让对方越来越迷茫。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

最近，谷歌在人机交互顶级会议ACM CHI（Conference on Human Factors in Computing Systems）上展示了一个系统Visual Captions，介绍了远程会议中的一个全新视觉解决方案，可以在对话背景中生成或检索图片以提高对方对复杂或陌生概念的了解。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

论文链接：https://research.google/pubs/pub52074/

代码链接：https://github.com/google/archat

Visual Captions系统基于一个微调后的大型语言模型，可以在开放词汇的对话中主动推荐相关的视觉元素，并已融入开源项目ARChat中。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

在用户调研中，研究人员邀请了实验室内的26位参与者，与实验室外的10位参与者对系统进行评估，超过80%的用户基本都认同Video Captions可以在各种场景下能提供有用、有意义的视觉推荐，并可以提升交流体验。

设计思路

在开发之前，研究人员首先邀请了10位内部参与者，包括软件工程师、研究人员、UX设计师、视觉艺术家、学生等技术与非技术背景的从业者，讨论对实时视觉增强服务的特定需求和期望。

两次会议后，根据现有的文本转图像系统，确立了预期原型系统的基本设计，主要包括八个维度（记为D1至D8）。

D1：时序，视觉增强系统可与对话同步或异步展现

D2：主题，可用于表达和理解语音内容

D3：视觉，可使用广泛的视觉内容、视觉类型和视觉源

D4：规模，根据会议规模的不同，视觉增强效果可能有所不同

D5：空间，视频会议是在同一地点还是在远程设置中

D6：隐私，这些因素还影响视觉效果是否应该私下显示、在参与者之间共享或向所有人公开

D7：初始状态，参与者还确定了他们希望在进行对话时与系统交互的不同方式，例如，不同级别的「主动性」，即用户可以自主确定系统何时介入聊天D8：交互，参与者设想了不同的交互方法，例如，使用语音或手势进行输入

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

用动态的视觉效果增强语言交流的设计空间

根据初步反馈，研究人员设计了Video Caption系统，专注于生成语义相关的视觉内容、类型和来源的同步视觉效果。

虽然在探索性会议中的想法大多关注于一对一远程对话的形式，Video Caption同样也可以用于一对多的（例如，向观众进行演示）和多对多场景（多人会议讨论）的部署。

除此之外，最能补充对话的视觉效果在很大程度上取决于讨论的上下文，所以需要一个专门制作的训练集。

研究人员收集了1595个四元组，包括语言、视觉内容、类型、来源，涵盖了各种上下文场景，包括日常对话、讲座、旅行指南等。

比如用户说「我很想看看！」（I would love to see it!）对应于「面部微笑」（face smiling）的视觉内容、「表情符号」（emoji）的视觉类型和「公共搜索」（public search）的视觉源。

「她有没有告诉你我们去墨西哥的事？」对应于「来自墨西哥之旅的照片」的视觉内容、「照片」的视觉类型以及「个人相册」的视觉源。

该数据集VC 1.5K目前已开源。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

数据链接：https://github.com/google/archat/tree/main/dataset

视觉意图预测模型

为了预测哪些视觉效果可以补充对话，研究人员使用VC1.5K数据集基于大型语言模型训练了一个视觉意图预测模型。

在训练阶段，每个视觉意图解析为「 of from 」的格式。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

基于该格式，系统可以处理开放词汇会话和上下文预测视觉内容、视觉源和视觉类型。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

这种方法在实践中也优于基于关键词的方法，因为后者无法处理开放式词汇的例子，比如用户可能会说「你的艾米阿姨将在这个星期六来访」，没有匹配到关键词，也就无法推荐相关的视觉类型或视觉来源。

研究人员使用VC1.5K数据集中的1276个（80%）样本来微调大型语言模型，其余319个（20%）示例作为测试数据，并使用token准确率指标来度量微调模型的性能，即模型正确预测的样本中token正确的百分比。

最终模型可以实现97%的训练token准确率和87%的验证token准确率。

实用性调研

为了评估训练的视觉字幕模型的实用性，研究团队邀请了89名参与者执行846项任务，要求对效果进行打分，1为非常不同意（strongly disagree）、7为非常同意（strongly agree）。

实验结果显示，大多数参与者更喜欢在对话中看到视觉效果（Q1），83% 给出了5-有些同意（somewhat agree）以上的评价。

此外，参与者认为显示的视觉效果是有用的且信息丰富的（Q2），82%给出了高于5分的评价；高质量的（Q3），82%给出了高于5分的评价；并与原始语音相关（Q4，84%）。

参与者还发现预测的视觉类型（Q5，87%）和视觉来源（Q6，86%）在相应对话的背景下是准确的。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

研究参与者对可视化预测模型的技术评价结果进行评分

基于该微调的视觉意图预测模型，研究人员在ARChat平台上开发了Visual Captions，可以直接在视频会议平台（如Google Meet）的摄像头流上添加新的交互式小部件。

在系统工作流程中，Video Captions可以自动捕获用户的语音、检索最后的句子、每隔100毫秒将数据输入到视觉意图预测模型中、检索相关视觉效果，然后提供推荐的视觉效果。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

Visual Captions的系统工作流

Visual Captions在推荐视觉效果时提供三个级别的可选主动性：

自动显示（高主动性）：系统自主搜索并向所有会议参与者公开显示视觉效果，无需用户交互。

自动推荐（中等主动性）：推荐的视觉效果显示在私人滚动视图中，然后用户点击一个视觉对象可以进行公开展示；在这种模式下，系统会主动推荐视觉效果，但用户决定何时显示以及显示什么。

按需建议（低主动性）：用户按下空格键后，系统才会推荐视觉效果。

研究人员在对照实验室研究（n = 26）和测试阶段部署研究（n = 10）中评估了Visual Captions系统，参与者发现，实时视觉效果有助于解释不熟悉的概念、解决语言歧义，并使对话更具吸引力，从而促进了现场对话。

再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手

参与者的task load指数和Likert scale评级，包括无VC、以及三个不同主动性的VC

与会者还报告了在现场进行交互中的不同的系统偏好，即在不同的会议场景中使用不同程度的VC主动性

以上是再也不怕「视频会议」尬住了！谷歌CHI顶会发布新神器Visual Captions：让图片做你的字幕助手的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

拥抱面部是否7B型号奥林匹克赛车击败克劳德3.7？Apr 23, 2025 am 11:49 AM

拥抱Face的OlympicCoder-7B：强大的开源代码推理模型开发以代码为中心的语言模型的竞赛正在加剧，拥抱面孔与强大的竞争者一起参加了比赛：OlympicCoder-7B，一种产品

4个新的双子座功能您可以错过Apr 23, 2025 am 11:48 AM

你们当中有多少人希望AI可以做更多的事情，而不仅仅是回答问题？我知道我有，最近，我对它的变化感到惊讶。 AI聊天机器人不仅要聊天，还关心创建，研究

Camunda为经纪人AI编排编写了新的分数Apr 23, 2025 am 11:46 AM

随着智能AI开始融入企业软件平台和应用程序的各个层面（我们必须强调的是，既有强大的核心工具，也有一些不太可靠的模拟工具），我们需要一套新的基础设施能力来管理这些智能体。总部位于德国柏林的流程编排公司Camunda认为，它可以帮助智能AI发挥其应有的作用，并与新的数字工作场所中的准确业务目标和规则保持一致。该公司目前提供智能编排功能，旨在帮助组织建模、部署和管理AI智能体。从实际的软件工程角度来看，这意味着什么？确定性与非确定性流程的融合该公司表示，关键在于允许用户（通常是数据科学家、软件

策划的企业AI体验是否有价值？Apr 23, 2025 am 11:45 AM

参加Google Cloud Next '25，我渴望看到Google如何区分其AI产品。有关代理空间（此处讨论）和客户体验套件（此处讨论）的最新公告很有希望，强调了商业价值

如何为抹布找到最佳的多语言嵌入模型？Apr 23, 2025 am 11:44 AM

为您的检索增强发电（RAG）系统选择最佳的多语言嵌入模型在当今的相互联系的世界中，建立有效的多语言AI系统至关重要。强大的多语言嵌入模型对于RE至关重要

麝香：奥斯汀的机器人需要每10,000英里进行干预Apr 23, 2025 am 11:42 AM

特斯拉的Austin Robotaxi发射：仔细观察Musk的主张埃隆·马斯克（Elon Musk）最近宣布，特斯拉即将在德克萨斯州奥斯汀推出的Robotaxi发射，最初出于安全原因部署了一支小型10-20辆汽车，并有快速扩张的计划。 h

AI震惊的枢轴：从工作工具到数字治疗师和生活教练Apr 23, 2025 am 11:41 AM

人工智能的应用方式可能出乎意料。最初，我们很多人可能认为它主要用于代劳创意和技术任务，例如编写代码和创作内容。然而，哈佛商业评论最近报道的一项调查表明情况并非如此。大多数用户寻求人工智能的并非是代劳工作，而是支持、组织，甚至是友谊！报告称，人工智能应用案例的首位是治疗和陪伴。这表明其全天候可用性以及提供匿名、诚实建议和反馈的能力非常有价值。另一方面，营销任务（例如撰写博客、创建社交媒体帖子或广告文案）在流行用途列表中的排名要低得多。这是为什么呢？让我们看看研究结果及其对我们人类如何继续将