搜索
首页科技周边人工智能三年16篇一作,前谷歌研究科学家Yi Tay官宣新模型,21B媲美Gemini Pro、GPT-3.5

该团队的新模型在多个基准测试中都与 Gemini Pro 、GPT-3.5 相媲美。

如果你经常读 AI 大模型方向的论文,Yi Tay 想必是一个熟悉的名字。作为前谷歌大脑高级研究科学家,Yi Tay 为许多知名的大型语言模型和多模态模型做出了贡献,包括 PaLM、UL2、Flan-U-PaLM、LaMDA/Bard、ViT-22B、PaLI、MUM 等。

根据 Yi Tay 个人资料统计,在谷歌大脑工作的 3 年多的时间里,他总共参与撰写了大约 45 篇论文,是其中 16 篇的一作。一作论文包括 UL2、U-PaLM、DSI、Synthesizer、Charformer 和 Long Range Arena 等。
三年16篇一作,前谷歌研究科学家Yi Tay官宣新模型,21B媲美Gemini Pro、GPT-3.5
和大多数离开谷歌自主创业的 Transformer 作者一样,Yi Tay 在去年 3 月份宣布离开谷歌,并参与创办了一家名为 Reka 的公司,Yi Tay 担任该公司的首席科学家,主攻大型语言模型。

随着时间的推移,刚刚,Yi Tay 宣布他们发布了新模型:
三年16篇一作,前谷歌研究科学家Yi Tay官宣新模型,21B媲美Gemini Pro、GPT-3.5
「很高兴与大家分享 Reka Flash,这是一种具有 SOTA 性能的、全新的 21B 多模态模型,该模型在语言和视觉基准方面可与 Gemini Pro 和 GPT 3.5 相媲美。我们用相对有限的资源从零开始训练这个模型…… 与此同时,我们规模最大、功能最强的模型 Reka-Core 也即将完成,大家可以对我们接下来的工作期待一下。」

Reka Flash:一个高效的多模态语言模型

Reka Flash 参数量为 21B,完全从头开始训练,其性能可与更大规模的模型相媲美,在众多语言和视觉基准测试中,Reka Flash 与 Gemini Pro 和 GPT-3.5 具有竞争力。

此外, Reka 团队还提出了一个更紧凑的模型变体 Reka Edge,该模型参数量更少,只有 7B,并且效率更高,使其在资源受限(例如,在设备上、本地)的场景下也能运行。

值得一提的是,这两种模型均处于公开测试阶段,感兴趣的读者可以前去尝试。

试用地址:https://chat.reka.ai/auth/login

与此同时,Reka 团队宣布他们最大、功能最强的 Reka Core 模型将在未来几周内向公众推出。

至于开源问题,该团队表示还在考虑当中。
三年16篇一作,前谷歌研究科学家Yi Tay官宣新模型,21B媲美Gemini Pro、GPT-3.5
评估:语言

评估基准包括 MMLU(基于知识的问答)、GSM8K(推理和数学)、HumanEval(代码生成)和 GPQA(Google-proof graduate-level question answering)。

结果显示,Reka Flash 在这些基准测试中取得了非常出色的成绩:在 MMLU 和 GPQA 上优于 Gemini Pro,在 GSM8K 和 HumanEval 上取得了具有竞争力的结果。此外,在这些评估中,Reka Flash 明显优于许多较大的模型(例如 Llama 2 70B、Grok-1、GPT-3.5)。
三年16篇一作,前谷歌研究科学家Yi Tay官宣新模型,21B媲美Gemini Pro、GPT-3.5
评估:多语言推理

Reka Flash 在超过 32 种语言(包括英语,德语,中文,日语,法语,韩语,西班牙语,意大利语,阿拉伯语等)的文本上进行了预训练,因此 Reka Flash 可以看做是一个强大的多语言模型。研究者比较了不同模型在多语言基准上的性能,包括多语言常识推理、因果推理和问答。结果表明,Reka Flash 在所有这些任务上均优于 Llama-2 70B 和 Mixtral。
三年16篇一作,前谷歌研究科学家Yi Tay官宣新模型,21B媲美Gemini Pro、GPT-3.5
评估:视觉和视频

此外,该研究还在多模态基准上对 Reka Flash 进行了评估,包括视觉问答(MMMU、VQA-v2)、视频字幕(VATEX)和视频问答(Perception Test)。结果表明 Reka Flash 在所有四个基准测试中都比 Gemini Pro 具有竞争力。
三年16篇一作,前谷歌研究科学家Yi Tay官宣新模型,21B媲美Gemini Pro、GPT-3.5
该研究还进行了一系列人工评估来评估基于 Reka Flash 的聊天模型。研究者考虑了两种设置,1)纯文本聊天模型和 2)多模态聊天模型。评估过程中他们按照 Askell 等人的方法计算 ELO 分数和总体胜率。

纯文本聊天:研究者以 GPT-4、Claude 2.1 和 Gemini Pro(API 版本)等领先模型为基准。此外研究者还比较了 Reka Edge、Mistral 7B 和 Llama 2 7B 聊天模型的性能。

人工评估结果表明,Reka Flash 取得了具有竞争力的结果,优于 GPT-3.5 Turbo、Claude、Mixtral 和 Gemini Pro。Reka Edge 领先于另外两款 7B 模型,接近 Claude Instant 1.2 的性能。
三年16篇一作,前谷歌研究科学家Yi Tay官宣新模型,21B媲美Gemini Pro、GPT-3.5
评估:多模态

该研究还将 Reka Flash 与 GPT4-V、Gemini Pro、Llava-1.6、IDEFICS 80b 和 Adept Fuyu-8B 等多模态语言模型进行了比较。结果表明,Reka Flash 的性能优于除 GPT4-V 之外的所有模型。Reka Edge 也取得了不错的排名,超越了基于 Mistral 7B 的 Llava 1.6 7B,并接近 Gemini Pro 的性能。
三年16篇一作,前谷歌研究科学家Yi Tay官宣新模型,21B媲美Gemini Pro、GPT-3.5
7B 参数的 Reka Edge 模型

Reka Edge 是更为紧凑的 7B 模型,专为本地部署和延迟敏感应用程序而设计。在语言评估任务上,该研究报告了其与类似规模模型(即 Mistral 7B 和 Llama-2 7B)的比较。结果表明,Reka Edge 在标准语言基准测试中优于 Llama 2 7B 和 Mistral 7B。
三年16篇一作,前谷歌研究科学家Yi Tay官宣新模型,21B媲美Gemini Pro、GPT-3.5
总结

Reka 团队表示他们旨在构建最先进的多模态语言模型,随着 Reka Flash 和 Reka Edge 的发布,他们 AI 蓝图中的最初里程碑已经实现。大家可以期待他们接下来的研究。

参考链接:https://reka.ai/reka-flash-an-efficient-and-capable-multimodal-language-model/

以上是三年16篇一作,前谷歌研究科学家Yi Tay官宣新模型,21B媲美Gemini Pro、GPT-3.5的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:机器之心。如有侵权,请联系admin@php.cn删除
及时工程中的思想图是什么及时工程中的思想图是什么Apr 13, 2025 am 11:53 AM

介绍 在迅速的工程中,“思想图”是指使用图理论来构建和指导AI的推理过程的新方法。与通常涉及线性S的传统方法不同

优化您的组织与Genai代理商的电子邮件营销优化您的组织与Genai代理商的电子邮件营销Apr 13, 2025 am 11:44 AM

介绍 恭喜!您经营一家成功的业务。通过您的网页,社交媒体活动,网络研讨会,会议,免费资源和其他来源,您每天收集5000个电子邮件ID。下一个明显的步骤是

Apache Pinot实时应用程序性能监视Apache Pinot实时应用程序性能监视Apr 13, 2025 am 11:40 AM

介绍 在当今快节奏的软件开发环境中,确保最佳应用程序性能至关重要。监视实时指标,例如响应时间,错误率和资源利用率可以帮助MAIN

Chatgpt击中了10亿用户? Openai首席执行官说:'短短几周内翻了一番Chatgpt击中了10亿用户? Openai首席执行官说:'短短几周内翻了一番Apr 13, 2025 am 11:23 AM

“您有几个用户?”他扮演。 阿尔特曼回答说:“我认为我们上次说的是每周5亿个活跃者,而且它正在迅速增长。” “你告诉我,就像在短短几周内翻了一番,”安德森继续说道。 “我说那个私人

pixtral -12b:Mistral AI'第一个多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一个多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介绍 Mistral发布了其第一个多模式模型,即Pixtral-12b-2409。该模型建立在Mistral的120亿参数Nemo 12B之上。是什么设置了该模型?现在可以拍摄图像和Tex

生成AI应用的代理框架 - 分析Vidhya生成AI应用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想象一下,拥有一个由AI驱动的助手,不仅可以响应您的查询,还可以自主收集信息,执行任务甚至处理多种类型的数据(TEXT,图像和代码)。听起来有未来派?在这个a

生成AI在金融部门的应用生成AI在金融部门的应用Apr 13, 2025 am 11:12 AM

介绍 金融业是任何国家发展的基石,因为它通过促进有效的交易和信贷可用性来推动经济增长。交易的便利和信贷

在线学习和被动攻击算法指南在线学习和被动攻击算法指南Apr 13, 2025 am 11:09 AM

介绍 数据是从社交媒体,金融交易和电子商务平台等来源的前所未有的速度生成的。处理这种连续的信息流是一个挑战,但它提供了

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器