首頁  >  文章  >  科技週邊  >  阿里雲大模型上新! AI神器「通義聽悟」公測中:長影片一秒總結,還能自動做筆記、翻字幕 | 羊毛可薅

阿里雲大模型上新! AI神器「通義聽悟」公測中:長影片一秒總結,還能自動做筆記、翻字幕 | 羊毛可薅

王林
王林轉載
2023-06-03 17:23:111160瀏覽

又一個接入大模型能力的組會神器實用工具,開啟免費公測啦!

背後大模型,是阿里的通義千問。至於為什麼說是組會神器嘛-

注意看,這是我的B站導師李沐老師,他正在帶同學精讀一篇大模型論文。

不巧就在這時,老闆催我抓緊搬磚。我只好默默摘下耳機,點開名為「通義聽悟」的插件,然後切換頁面。

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

你猜怎麼著?雖然我人不在「組會」現場,但聽悟已經幫我完整記錄下了組會內容。

甚至還幫我一鍵總結了關鍵字、全文摘要和學習要點。

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

#簡單來說,這個剛剛接入大模型能力的“通義聽悟”,是一個大模型版的聚焦音視頻內容的工作學習AI助理。

不同於以往的錄音轉寫工具,它不僅能將錄音和影片轉化為文字。能一鍵總結全文不說,總結不同發言人觀點也能做到:

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

#甚至還能當即時字幕翻譯來用:

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

#看上去,不僅開組會好使,對於經常要處理一大堆錄音、熬夜跟各種國外發布會的量子位來說,也實屬日常工作新神器。

我們趕緊第一時間深入測試了一波。

通義聽悟上手實測

音訊內容的整理與分析,最基礎也是最重要的,就是轉寫的準確性。

Round 1,我們先上傳一個時長在10分鐘左右的中文視頻,看看聽悟與同類工具相比,在準確性方面表現如何。

基本上,AI處理這種中長音影片的速度很快,大概不到2分鐘就能轉寫完成。

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

先來看看聽悟的表現:

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

#在這個200字左右的段落中,聽悟只出現了兩處錯誤:強→ 牆,都好處→ 恰到好處。像原子核、電荷、斥力這些物理名詞,聽悟都能搞懂。

我們用同一段影片在飛書妙記上也進行了測試。基本問題也不大,但相比聽悟,飛書多了兩處錯誤,把其中一處“原子”寫成了“園子”,把“斥力”聽成了“勢力”。

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

有趣的是,聽悟犯的錯,飛書也一比一復刻了。看來這口鍋還得量子位某說話吞字的up主來背(手動狗頭)。

訊飛聽見,倒是分辨出了前兩位選手沒有辨識出來的「恰到好處」。但訊飛聽見基本上把“牆”全部都轉寫成了“強”,還出現了“強的糖粒”這種神奇的搭配。另外,三位選手中,只有訊飛聽見把「電磁力」聽成了「電子力」。

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

整體來說,中文的辨識對這些AI工具來說難度不大。那麼在英文材料面前,它們又會表現如何呢?

我們上傳了一段馬斯克的最新訪談,內容是他與OpenAI過去的恩怨糾葛。

還是先來看聽悟給出的結果。在馬斯克的回答中,除了拉里·佩奇的名字,聽悟基本上能正確辨識其他所有人。

值得一提的是,聽悟能夠直接將英文轉寫結果翻譯成中文,並將雙語對照顯示,翻譯品質也相當不錯。

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

飛書妙記則成功聽出了拉里·佩奇的名字,不過和聽悟一樣,由於馬斯克整體語速較快並且有一些口語化的表達,存在一些小錯誤,例如把“stay at his house”寫成了“say this house”。

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

訊飛聽見這邊,人名、連讀細節處理得都不錯,不過同樣存在被馬斯克的口語化表達誤導的情況,比如把「long into the evening」當成了「longing to the evening」。

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

如此看來,在基礎能力語音辨識方面,AI工具們都已經達到了很高的準確率,在極高的效率面前,一些小問題已經瑕不掩瑜。

那麼,我們將難度再升一級,Round 2,來測試測試它們對1小時左右長影片的總結能力。

測試影片是一段40分鐘的圓桌討論,主題是中​​國AIGC新機會。參與圓桌討論的共有5人。

聽悟這邊,從轉寫完成到AI提取關鍵字、給予全文摘要,總共花了不到5分鐘的時間。

結果是醬嬸的:

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

#不僅給了關鍵字,圓桌討論的內容也總結得很到位,並且還給視頻劃分了關鍵點。

比較人類編輯摘錄的話題要點,我嗅到了一絲危機…

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

#值得一提的是,針對不同嘉賓的發言,聽悟都能給予對應的發言總結。

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

同樣的題目拋給飛書妙記。目前,在內容總結方面,飛書妙記只能給出關鍵字。


阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

會議紀要需要手動在轉寫文字上標示。

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

訊飛聽說他們正在內測一個基於星火認知大模型的產品,能夠分析文件內容,但需要填寫申請並排隊等待。 (有內測資格的夥伴歡迎分享體驗~)

在基礎的訊飛聽見中,目前沒有類似的總結功能。

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

看來這一輪測試:

不過要說在本次實測中,通義聽悟最令人感覺驚喜的,其實是一個「小」設計:

Chrome外掛功能。

無論是看英文視頻,看直播,還是上課開會,點開聽悟插件,就能實現音視頻的實時轉錄和翻譯。

就像開頭所展示的那樣,拿來當實時字幕用,延遲低,翻譯快,還有雙語對照功能,同時,錄音和轉寫文字都能一鍵保存下來,方便後續使用。

媽媽再也不用擔心我啃不下來英文影片資料了。

另外,我還有個大膽的想法…

開組會的時候打開聽悟,開會兒小差再也不用怕被導師突然抽查了。

目前,聽悟已經和阿里雲盤打通,存放在雲盤中的音視頻內容可以一鍵轉寫,在線播放雲盤視頻時還能自動顯示字幕。 AI處理過的影音檔案將來可以在企業版本中快速內部分享。


阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

聽悟官方也透露,接下來,聽悟還會持續上新大模型能力,例如直接抽取影片內的PPT截圖、針對音視頻內容可以直接向AI提問……

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅


阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

關鍵是,公測福利現在人人可薅,每天登陸即可自動獲得2小時轉寫時長,阿里雲官方微博、微信及各大平台社區還會發放大量20小時轉寫口令碼,且時長皆可疊加,一年內有效。

勤快一點的羊毛大師,存下100小時以上的免費時長不是夢(手排狗頭)。

背後技術:大語言模型語音SOTA阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

其實,在公測之前,通義聽悟就已經在阿里內部精心打磨過了。

在去年年底,有一些量子位元讀者獲得了聽悟內測體驗卡,當時的版本已經包含了離線語音/視訊轉寫和即時轉寫的功能。

這次公測,聽悟主要是接入了通義千問大模型的摘要及對話能力。更具體地說,這項工作是建立在通義千問大模型的基礎上,將研究團隊在推理、對齊和對話問答等方面的研究成果整合在一起。

###首先,如何準確地抽取關鍵訊息,是這類神器提升工作效率的關鍵。這就需要藉助大模型的推理能力。 ######阿里AI團隊在2022年提出了一個基於大語言模型的知識探測與推理利用框架Proton(Probing Turning from Large Language Models)。 The relevant paper will be published at top international conferences such as KDD2022 and SIGIR2023.。 #####################該框架的核心思路在於,探測大模型的內部知識,以思維鍊為載體進行知識流動和利用。 ######在一般常識推理CommonsenseQA2.0、物理常識推理PIQA、數值常識推理Numbersense三大榜單上,Proton曾先後取得第一。 ######在TabFact(事實驗證)名單上,Proton憑藉著知識分解和可信思維鏈技術,首次實現了超越人類的效果。 #####################其次,為了確保摘要內容和格式符合使用者預期,在對齊方面,聽悟也用上了ELHF,即基於人類回饋的高效率對齊方法。 ######此方法僅需少量高品質人工回饋樣本,就能實現對齊。在模型效果主觀評測中,ELHF能使模型勝率提高20%。 ###

此外,悟背後的研發團隊也發布了中文超大規模文件對話資料集Doc2Bot。該團隊提升模型問答能力的Re3G方法,已入選ICASSP 2023:該方法透過Retrieve(檢索)、Rerank(重新排序)、Refine(精調)和Generate(生成)四個階段,能提升模型對使用者問題的理解、知識檢索和回復生成能力,在Doc2Dial和Multi Doc2Dial兩大文檔對話榜單中取得第一。

除了大模型能力,聽悟還是阿里語音技術的集大成者。

背後的語音辨識模型Paraformer,來自阿里達摩院,首次在工業級應用層面解決了端到端辨識效果與效率兼顧的難題:

它不僅在推理效率方面比傳統模型提高了10倍,而且最初推出時還打破了多項權威資料集的記錄,刷新了語音識別的準確率SOTA。在專業第三方全網公有雲中文語音辨識評測SpeechIO TIOBE白盒測驗中,目前,Paraformer-large仍是準確率最高的中文語音辨識模式。

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

Paraformer是單輪非自迴歸模型,由編碼器、預測器、取樣器、解碼器和損失函數這五個部分組成。

透過預測器的創新設計,Paraformer實現了目標文字個數及對應聲學隱變數的精確預測。

另外,研究人員也引入了機器翻譯領域中瀏覽語言模型(GLM)的思路,設計了基於GLM的取樣器,增強了模型對上下文語意的建模。

同時,Paraformer也使用了數萬小時、涵蓋豐富場景的超大規模工業資料集進行訓練,進一步提升了辨識準確率。

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

而準確的多人討論發言人區分,則得益於達摩院的CAM 說話者識別基礎模型。模型採用基於密集型連接的時延網路D-TDNN,每一層的輸入均由前面所有層的輸出拼接而成,這種層級特徵復用和時延網路的一維卷積,可以顯著提高網路的運算效率。

在業界主流的中英文測試集VoxCeleb和CN-Celeb上,CAM 均刷新了最優準確率。

阿里云大模型上新!AI神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕 | 羊毛可薅

大模型開卷,用戶受益

根據中國科學技術資訊研究所報告,據不完全統計,目前國內已經發布了79個大模型。

這種大模型開卷的趨勢下,AI應用進化的速度再次進入到一個衝刺階段。

站在用戶的角度來說,喜聞樂見的局面正逐步形成:

大模型的「統籌」之下,各種AI技術開始在應用側百花齊放,使得工具越來越高效,越來越智慧。

從一個斜杠就能幫你自動寫完工作計劃的智能文檔,到快速幫你總結要素的音視頻記錄和分析工具,生成式大模型這朵AGI的火花,正在讓越來越多的人感受到AI的魔力。


同時,對於科技企業來說,新的挑戰和新的機會,無疑也已經出現。

挑戰是,所有產品都將被大模型的風暴席捲,而技術創新已經成為了無可迴避的關鍵問題。

現有市場格局對於新型殺手級應用而言,已經到了重寫的機會時刻。誰能取得領先優勢,將取決於誰的技術準備更完備,誰的科技進化速度更快。

無論如何,技術開卷,終將是使用者受益。

以上是阿里雲大模型上新! AI神器「通義聽悟」公測中:長影片一秒總結,還能自動做筆記、翻字幕 | 羊毛可薅的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除