大型語言模型(LLM)正在改變每個產業的使用者期望。然而,建立以人類語音為中心的生成式人工智慧產品仍然很困難,因為音訊檔案對大型語言模型構成了挑戰。
將 LLM 套用到音訊檔案的一個關鍵挑戰是,LLM 受其上下文視窗的限制。在一個音訊檔案能夠被送入 LLM 之前,它需要被轉換成文字。音訊檔案越長,繞過 LLM 的上下文視窗限制的工程挑戰就越大。但在工作場景中,我們往往需要LLM 幫我們處理非常長的語音文件,例如從一段幾個小時的會議錄音中抽取核心內容、從一段訪談中找到某個問題的答案…
#最近,語音辨識AI 公司AssemblyAI 推出了一個名為LeMUR 的新模型。就像 ChatGPT 處理數十頁的 PDF 文字一樣,LeMUR 可以將長達 10 小時的錄音進行轉錄、處理,然後幫用戶總結語音中的核心內容,並回答使用者輸入的問題。
試用網址:https://www.assemblyai.com/playground/v2/source
LeMUR 是Leveraging Large Language Models to Understand Recognized Speech(利用大型語言模型來理解識別的語音)的縮寫,是將強大的LLM 應用於轉錄的語音的新框架。只需一行程式碼(透過 AssemblyAI 的 Python SDK),LeMUR 就能快速處理長達 10 小時的音訊內容的轉錄,有效地將其轉化為約 15 萬個 token。相較之下,現成的、普通的 LLM 只能在其上下文視窗的限制範圍內容納最多 8K 或約 45 分鐘的轉錄音訊。
為了降低將LLM 套用於轉錄音訊檔案的複雜性,LeMUR 的pipeline 主要包含智慧分割、一個快速向量資料庫和若干推理步驟(如思維鏈提示和自我評估),如下圖所示:
圖1:LeMUR 的架構使用戶能夠透過一個API 呼叫將長的和/ 或多個音訊轉錄檔案傳送到LLM 中。
未來,LeMUR 預計將在客服等領域廣泛應用。
LeMUR 解鎖了一些驚人的新可能性,在幾年前,我認為這些都是不可能的。它能夠毫不費力地提取有價值的見解,例如確定最佳行動,辨別銷售、預約或呼叫目的等呼叫結果,感覺真的很神奇。 —— 電話追蹤與分析服務技術公司 CallRail 首席產品長 Ryan Johnson
將LLM 套用到多個音訊文字
#LeMUR 能夠讓使用者一次獲得LLM 對多個音訊檔案的處理回饋,以及長達10 小時的語音轉錄結果,轉化後的文字token 長度可達150K 。
可靠、安全的輸出
###由於LeMUR 包含安全措施和內容過濾器,它將為用戶提供來自LLM 的回應,這些回應不太可能產生有害或偏見的語言。 ######
#在推理時,它允許添加額外的上下文信息,LLM 可以利用這些額外信息在生成輸出時提供個性化和更準確的結果。
LeMUR 總是以可處理的JSON 形式傳回結構化資料。使用者可以進一步自訂 LeMUR 的輸出格式,以確保 LLM 給出的回應是他們下一塊業務邏輯所期望的格式(例如將答案轉換為布林值)。在這一流程中,使用者不再需要編寫特定的程式碼來處理 LLM 的輸出結果。
試用結果
根據 AssemblyAI 提供的測試鏈接,機器之心對 LeMUR 進行了測試。
LeMUR 的介面支援兩種檔案輸入方式:上傳音視訊檔案或貼上網頁連結皆可。
我們以 Hinton 最近的一份訪談資料作為輸入,測試 LeMUR 的表現。
上傳之後,系統提示我們要等一段時間,因為它要先把語音轉成文字。
轉錄之後的介面如下:
在頁面右側,我們可以請LeMUR 總結訪談內容或回答問題。 LeMUR 基本上可以輕鬆完成任務:
##################################################如果要處理的語音是一段演講或客服回复,你還能向LeMUR 徵求改進建議。 ###########################不過,LeMUR 似乎目前還不支援中文。有興趣的讀者可以去嘗試。 ######
以上是聽得懂語音的ChatGPT來了:10小時錄音丟進去,想問什麼問什麼的詳細內容。更多資訊請關注PHP中文網其他相關文章!