首页 >科技周边 >人工智能 >谷歌推出Mirasol：30亿参数，将多模态理解扩展至长视频

谷歌推出Mirasol：30亿参数，将多模态理解扩展至长视频

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB转载: 2023-11-17 23:39:011178浏览

11 月 16 日消息，谷歌公司近日发布新闻稿，介绍了小型人工智能模型 Mirasol，可以回答有关视频的问题并创造新的记录。

谷歌推出Mirasol：30亿参数，将多模态理解扩展至长视频

AI 模型目前很难处理不同的数据流，如果要让 AI 理解视频，需要整合视频、音频和文本等不同模态的信息，这大大增加了难度。

谷歌和谷歌 Deepmind 的研究人员提出了新的方法，将多模态理解扩展到长视频领域。

借助Mirasol AI模型，该团队努力解决两个关键挑战：

在Mirasol中，谷歌采用了合路器和自回归转换器模型

该模型组件将处理时间同步的视频和音频信号，然后将视频拆分成独立的片段

转换器处理每个片段，并学习每个片段之间的联系，然后使用另一个转换器处理上下文文本，这两个组件交换有关其各自输入的信息。

一个新的转换模块名为Combiner，能够从每个片段中提取通用表示，并通过降维来压缩数据。每个片段包含4到64帧，该模型目前拥有30亿个参数，能够处理128到512帧的视频

谷歌推出Mirasol：30亿参数，将多模态理解扩展至长视频

在测试中，Mirasol3B 在视频问题分析方面达到了新的基准，体积明显更小，并且可以处理更长的视频。通过使用带有内存的组合器变体，该团队能够进一步降低所需的计算能力18%

谷歌推出Mirasol：30亿参数，将多模态理解扩展至长视频

本站在此附上 Mirasol 的官方新闻稿，感兴趣的用户可以深入阅读。

以上是谷歌推出Mirasol：30亿参数，将多模态理解扩展至长视频的详细内容。更多信息请关注PHP中文网其他相关文章！

声明：

本文转载于：51cto.com。如有侵权，请联系admin@php.cn删除

查看更多