搜尋
首頁科技週邊人工智慧國內推出全新語音對話大模型:李開復領銜,零一萬物參與,支援中英雙語與多模態,開源可商用

首個中英雙語的語音對話開源大模型來了!

這幾天,一篇關於語音-文本多模態大模型的論文出現在arXiv上,署名公司中出現了李開復旗下大模型公司01.ai——零一萬物的名字。

國內推出全新語音對話大模型:李開復領銜,零一萬物參與,支援中英雙語與多模態,開源可商用圖片

這篇論文介紹了一個名為LLaSM的中英雙語可商用對話模型。該模型不僅支援錄音和文字輸入,而且能夠實現「混合雙打」的功能

國內推出全新語音對話大模型:李開復領銜,零一萬物參與,支援中英雙語與多模態,開源可商用圖片

研究指出,「語音聊天」是AI與人之間更方便自然的互動方式,不只是透過文字輸入

用上大模型,有網友已經在想「躺著說話就能寫程式碼」的場景了。

國內推出全新語音對話大模型:李開復領銜,零一萬物參與,支援中英雙語與多模態,開源可商用圖片

這項研究是由LinkSoul.AI、北京大學和零一萬物共同完成的,目前已經開源,並且可以直接在抱抱臉中進行試玩

國內推出全新語音對話大模型:李開復領銜,零一萬物參與,支援中英雙語與多模態,開源可商用圖片

讓我們一起來看看它的效果如何吧

支援文字語音輸入,手機也可玩

據研究人員表示,LLaSM是第一個支援中英文雙語語音-文字多模態對話的開源可商用對話模型。

那麼,就來看看它的語音文字輸入和中英雙語能力如何。

首先,讓我們進行一次中英文化碰撞,用英文來評價李白:

國內推出全新語音對話大模型:李開復領銜,零一萬物參與,支援中英雙語與多模態,開源可商用#圖片

還可以,正確地說出了李白的朝代。如果看不懂英文,讓它直接翻譯成中文也沒問題:

國內推出全新語音對話大模型:李開復領銜,零一萬物參與,支援中英雙語與多模態,開源可商用圖片

#在接下來的練習中,讓我們試試看中英混合提問,將一個「炸食物」一詞加入中文句子。模型的輸出效果也相當不錯:

國內推出全新語音對話大模型:李開復領銜,零一萬物參與,支援中英雙語與多模態,開源可商用圖片

讓我們再試探模型,讓它進行一些評價,看看李白和杜甫哪個更厲害

可以觀察到,在經過一段時間的思考後,這個模型給出了非常客觀中立的評價,同時也具備了大型模型所必備的基本知識和常識(手動狗頭)

國內推出全新語音對話大模型:李開復領銜,零一萬物參與,支援中英雙語與多模態,開源可商用圖片

當然,不只電腦,手機也能玩。

我們試著用語音輸入「給我推薦一個食譜吧」:

可以看到模型準確地輸出了一個「茄子起司」的食譜,就是不知道好不好吃。

不過,我們在嘗試的時候也發現,這個模型有時候會出bug。

例如有時候它並不能很好地「聽懂人話」。

要求輸出中英混合的內容,它會假裝看不懂並輸出英文:

國內推出全新語音對話大模型:李開復領銜,零一萬物參與,支援中英雙語與多模態,開源可商用#圖片

當中英混合詢問想聽「Taylor Swift的Red」時,模型出現了嚴重的錯誤,不斷重複輸出同一句話,甚至無法停止…

國內推出全新語音對話大模型:李開復領銜,零一萬物參與,支援中英雙語與多模態,開源可商用圖片

整體來看,當遇到中英混合的提問或要求時,模型輸出能力還是不太行。

不過分開的話,它的中英文表達能力還是不錯的。

那麼,這樣的模型究竟是怎麼實現的呢?

做了個什麼新模型?

從試玩來看,LLaSM主要有兩個特點:一個是支援中英輸入,另一個是語音文字雙輸入。

要做到這兩點,分別需要在架構和訓練資料上做一些調整。

架構上,LLaSM將目前的語音辨識模型和大語言模型做了個整合。

LLaSM由三個部分構成,分別包含自動語音辨識模型Whisper、模態轉接器和大模型LLaMA。

在這個過程中,Whisper負責接收原始語音輸入並輸出語音特徵的向量表示。模態適配器的作用是對齊語音和文字嵌入。而LLaMA則負責理解語音和文字輸入的指令,並產生回應

國內推出全新語音對話大模型:李開復領銜,零一萬物參與,支援中英雙語與多模態,開源可商用圖片

##模型的訓練分為兩個階段。第一階段是訓練模態適配器,此時編碼器和大模型被凍結,讓模型學習語音和文字的對齊。第二階段是凍結編碼器,訓練模態適配器和大模型,以提升模型的多模態對話能力

訓練資料上,研究人員整理出了一個包含19.9萬個對話和50.8萬個語音-文字樣本的資料集LLaSM-Audio-Instructions。

在50.8萬個​​語音-文字樣本中,有8萬個是中文語音樣本,而42.8萬個是英文語音樣本

研究者主要基於WizardLM、ShareGPT和GPT-4 -LLM等資料集,透過文字轉語音技術,給這些資料集產生語音包,同時過濾掉無效對話。

國內推出全新語音對話大模型:李開復領銜,零一萬物參與,支援中英雙語與多模態,開源可商用圖片

這也是目前最大的中英文語音文字指令遵循資料集,不過目前還在整理中,據研究人員表示,整理完後會進行開源。

然而,目前還沒有對比該論文與其他語音模型或文本模型的輸出效果

作者介紹

這篇論文的作者來自LinkSoul.AI、北京大學和零一萬物

共同一作Yu Shu和Siwei Dong皆來自LinkSoul.AI,先前曾在北京智源人工智慧研究院工作。

LinkSoul.AI是一家AI新創公司,之前推出過首個開源Llama 2的中文語言大模型。

國內推出全新語音對話大模型:李開復領銜,零一萬物參與,支援中英雙語與多模態,開源可商用圖片

作為李開復旗下的大模型公司,零一萬物也在這次研究中有所貢獻。作者Wenhao Huang的Hugging Face主頁顯示,他畢業於復旦大學。

國內推出全新語音對話大模型:李開復領銜,零一萬物參與,支援中英雙語與多模態,開源可商用圖片

論文網址:


#https://www.php.cn/link/47c917b09f2bc64b2916c0824c715923

Demo位址:


https://www.php.cn/link/bcd0049c35799cdf57d06eaf2eb3cff6#

以上是國內推出全新語音對話大模型:李開復領銜,零一萬物參與,支援中英雙語與多模態,開源可商用的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
大多數使用的10個功率BI圖 - 分析Vidhya大多數使用的10個功率BI圖 - 分析VidhyaApr 16, 2025 pm 12:05 PM

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

AI的專家系統AI的專家系統Apr 16, 2025 pm 12:00 PM

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

三個最好的氛圍編碼器分解了這項代碼中的AI革命三個最好的氛圍編碼器分解了這項代碼中的AI革命Apr 16, 2025 am 11:58 AM

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

跑道AI的Gen-4:AI蒙太奇如何超越荒謬跑道AI的Gen-4:AI蒙太奇如何超越荒謬Apr 16, 2025 am 11:45 AM

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

如何註冊5天ISRO AI免費課程? - 分析Vidhya如何註冊5天ISRO AI免費課程? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

AI中的本地搜索算法AI中的本地搜索算法Apr 16, 2025 am 11:40 AM

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮Apr 16, 2025 am 11:37 AM

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

提示:chatgpt生成假護照提示:chatgpt生成假護照Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)