首个中英双语的语音对话开源大模型来了!
这几天,一篇关于语音-文本多模态大模型的论文出现在arXiv上,署名公司中出现了李开复旗下大模型公司01.ai——零一万物的名字。
图片
这篇论文介绍了一个名为LLaSM的中英双语可商用对话模型。该模型不仅支持录音和文本输入,而且能够实现“混合双打”的功能
图片
研究指出,“语音聊天”是AI与人之间更方便自然的交互方式,不仅仅是通过文本输入
用上大模型,有网友已经在想象“躺着说话就能写代码”的场景了。
图片
这项研究是由LinkSoul.AI、北京大学和零一万物共同完成的,目前已经开源,并且可以直接在抱抱脸中进行试玩
图片
让我们一起来看看它的效果如何吧
支持文本语音输入,手机也可玩
据研究人员表示,LLaSM是第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。
那么,就来看看它的语音文本输入和中英双语能力如何。
首先,让我们进行一次中英文化碰撞,用英文来评价李白:
图片
还可以,正确地说出了李白的朝代。如果看不懂英文,让它直接翻译成中文也没问题:
图片
在接下来的练习中,让我们尝试一下中英混合提问,将一个“炸食物”一词加入到中文句子中。模型的输出效果也相当不错:
图片
让我们再试探一下模型,让它进行一些评价,看看李白和杜甫哪个更厉害
可以观察到,在经过一段时间的思考后,这个模型给出了非常客观中立的评价,同时也具备了大型模型所必备的基本知识和常识(手动狗头)
图片
当然,不止是电脑,手机也能玩。
我们试着用语音输入“给我推荐一个菜谱吧”:
可以看到模型准确地输出了一个“茄子芝士”的菜谱,就是不知道好不好吃。
不过,我们在尝试的时候也发现,这个模型有时候会出bug。
例如有时候它并不能很好地“听懂人话”。
要求输出中英混合的内容,它会假装看不懂并输出英文:
图片
当中英混合询问想听“Taylor Swift的Red”时,模型出现了严重的错误,不断重复输出同一句话,甚至无法停止……
图片
总体来看,当遇到中英混合的提问或要求时,模型输出能力还是不太行。
不过分开的话,它的中英文表述能力还是不错的。
那么,这样的模型究竟是怎么实现的呢?
做了个什么新模型?
从试玩来看,LLaSM主要有两个特点:一个是支持中英输入,另一个是语音文本双输入。
要做到这两点,分别需要在架构和训练数据上做一些调整。
架构上,LLaSM将当前的语音识别模型和大语言模型做了个整合。
LLaSM由三个部分构成,分别包括自动语音识别模型Whisper、模态适配器和大模型LLaMA。
在这个过程中,Whisper负责接收原始语音输入并输出语音特征的向量表示。模态适配器的作用是对齐语音和文本嵌入。而LLaMA则负责理解语音和文本输入的指令,并生成回复
图片
模型的训练分为两个阶段。第一阶段是训练模态适配器,此时编码器和大模型被冻结,让模型学习语音和文本的对齐。第二阶段是冻结编码器,训练模态适配器和大模型,以提升模型的多模态对话能力
训练数据上,研究人员整理出了一个包含19.9万个对话和50.8万个语音-文本样本的数据集LLaSM-Audio-Instructions。
在50.8万个语音-文本样本中,有8万个是中文语音样本,而42.8万个是英文语音样本
研究人员主要基于WizardLM、ShareGPT和GPT-4-LLM等数据集,通过文本转语音技术,给这些数据集生成语音包,同时过滤掉无效对话。
图片
这也是目前最大的中英文语音文本指令遵循数据集,不过目前还在整理中,据研究人员表示,整理完后会进行开源。
然而,目前还没有对比该论文与其他语音模型或文本模型的输出效果
作者介绍
这篇论文的作者来自LinkSoul.AI、北京大学和零一万物
共同一作Yu Shu和Siwei Dong均来自LinkSoul.AI,此前曾经在北京智源人工智能研究院工作。
LinkSoul.AI是一家AI初创公司,之前推出过首个开源Llama 2的中文语言大模型。
图片
作为李开复旗下的大模型公司,零一万物也在这次研究中有所贡献。作者Wenhao Huang的Hugging Face主页显示,他毕业于复旦大学。
图片
论文地址:
https://www.php.cn/link/47c917b09f2bc64b2916c0824c715923
Demo地址:
https://www.php.cn/link/bcd0049c35799cdf57d06eaf2eb3cff6
以上是国内推出全新语音对话大模型:李开复领衔,零一万物参与,支持中英双语和多模态,开源并可商用的详细内容。更多信息请关注PHP中文网其他相关文章!

重新构想影响:四倍的底线 长期以来,对话一直以狭义的AI影响来控制,主要集中在利润的最低点上。但是,更全面的方法认识到BU的相互联系

事情正稳步发展。投资投入量子服务提供商和初创企业表明,行业了解其意义。而且,越来越多的现实用例正在出现以证明其价值超出

您急于满足截止日期,并决定使用Chatgpt创建营销电子邮件。您输入AI提示:“写一条专业的100字营销电子邮件”。结果是缺乏音调或Struc的通用,术语的文件

介绍 想象一下,需要从成千上万的交易和许多促成因素中确定您公司的最高销售代表。 传统方法变得麻烦。 SQL的排名功能为召集提供了有效的解决方案

众议院和参议院都同意在周末进行预算框架。该框架要求削减支出,以支付削减税收的费用,这些减税量不成比例,以防止赤字增加,同时也增加

雪花首席执行官在坐下来告诉我:“人工智能不应该是大爆炸。” “这应该是一系列小项目,显示出每一步的价值。”但是,正如拉马斯瓦米(Ramaswamy)指出的那样,虽然这听起来可能谨慎,但实际上是策略。 在中间

Deezer的首席创新官Aurelien Herault在一份声明中说:“ AI产生的内容继续传到Deezer等洪水流媒体平台,我们没有看到它放慢速度的迹象。” 虽然没有减轻洪水的迹象,但Deezer确实有

这种转变不再是理论上的。 卡夫集团(Kraft Group) - 新英格兰爱国者队,新英格兰革命和吉列特体育场(Gillette Stadium)的所有者 - 刚刚宣布与NWN建立战略合作伙伴关系,以现代化和转变KR的技术


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

SecLists
SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

WebStorm Mac版
好用的JavaScript开发工具

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

VSCode Windows 64位 下载
微软推出的免费、功能强大的一款IDE编辑器

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中