深耕AI語音多模態技術，實現在地化智慧互動體驗-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

深耕AI語音多模態技術，實現在地化智慧互動體驗

王林

Sep 17, 2023 pm 01:21 PM

傳音ai語音多模態技術。

伴隨著5G、人工智慧技術的發展，智慧語音已經隨著各種智慧終端產品滲透到人們的日常生活中，帶來了更多便利和可能性。作為新興市場智慧終端產品和行動互聯服務供應商，傳音聚焦人工智慧領域持續創新，不斷推進AI語音技術的研究和應用，挖掘更多在地化用戶場景要求，為新興市場用戶帶來全場景智能交互體驗。

目前，傳音已經在語音辨識、語意理解、語音合成、自然語言處理、知識圖譜等方面形成了的自身的AI語音底層技術能力，建構起小語種語音數據優勢，並在多語種語音助理、數位人、語音偽造檢測技術方面取得了重大突破。今年以來，傳音AI技術部成果不斷，接連在ICASSP 2023 SLU口語理解挑戰賽、IJCAI 2023 ADD 語音深度偽造檢測國際挑戰賽奪得佳績，並在國際多媒體旗艦學術會議ICME 2023上發表數位人多模態交互的相關學術論文。

建構本地語音互動內容生態的多語種語音助理

語音助理是智慧型手機的標配應用程式之一，其核心技術為語音互動和自然語言理解，旨在幫助使用者更快速、有效率地執行目標任務。面對新興市場本地語音互動的需求，傳音長期深耕多語種語音助理技術，著力洞察本地用戶需求，形成技術解決方案，在探索和研發過程中沉澱了深厚的技術能力和實踐經驗。

在2023年的ICASSP國際頂尖會議上，傳音AI技術部在SLU（口語理解）挑戰賽中取得了巨大的成功。憑藉在語音辨識和語意理解方面的出色表現，他們以71.97%的準確率榮獲離線語音助理子賽道的第一名。他們的參賽論文「A Two-Stage System for Spoken Language Understanding」也被IEEE電氣與電子工程師協會收錄

深耕AI語音多模態技術，實現在地化智慧互動體驗

傳音AI技術部同事在ICASSP 2023分享研究成果

目前，語音助理主要面向主流語言，而對小眾語言、特定人群等細分領域涵蓋較少。傳音針對非洲、南亞等新興市場用戶的本地口音和小語種，依託海量手機用戶資源，建構了一套本地化低成本、高品質的語料數據生產體系，解決小語種語料匱乏、數據稀缺的問題。在此基礎上，傳音開發能適應新興市場本地用戶語言文化特徵的多語言語音助手，幫助當地用戶更便捷地使用本地語言與手機進行語音互動。目前，傳音的多語種語音助理技術已支援英語、法語、豪薩語、阿拉伯語、斯瓦西里語等語言的語音互動和自然語言理解能力，涵蓋聯絡人通話、APP快速啟動、音樂播放、 WhatsApp訊息、閒聊等100多種使用情境

為了滿足本地用戶在生活服務方面的需求，傳音公司的多語種AI語音助理技術將不斷地應用於更多的生活、出行、學習和工作場景，以建立一個跨語言的AI內容服務生態系統，使智慧語音服務能夠滲透到本地生活的各個方面，讓更多使用小語種的人受益

深耕AI語音多模態技術，實現在地化智慧互動體驗

AI 數位人技術賦能傳音多場景業務

隨著互動智慧技術的加速發展，數位人正從科技創新走向產業應用，在娛樂、教育、醫療等多個領域發揮作用。傳音積極擁抱AI發展機遇，事先佈置數位人技術，建立了完整的全連結技術與工程化的自研能力。傳音數位人系統，包含2D真人和3D寫實數位人，擁有基於多語種的語音辨識、語音合成、語音喚醒、自然語言理解和數位人等能力的資料資源，在多語種語音對話、人設和外觀、智慧化場景互動等領域形成了自身的在地化特色和業界領先性。今年1月，傳音數位人系統獲得由中國信通院所核發的數位人領域權威標準認證。這也是目前唯一透過中國信通院評測，以「互動對話」為核心的中國手機廠商數位人系統。

為了提高虛擬形象的模擬效果、合成出逼真且富有表現力的數位人視頻，傳音AI技術部自研端到端技術，在優化數位人視頻生成質量的過程中，基於Unet網絡提出了一個新的技術框架densely-connected Unet結構，同時引入了CLIP的encoder結構，利用文字語意訊息提升數位人嘴部動畫效果。同時此技術提出人臉關鍵點技術的機率密度圖，增加了模型網路的模態訊息，提升了模型產生的品質。這項技術突破能夠讓數位人的臉部形象更加真實、細膩，同時提升語音和唇形的一致性，其生成效果達到了學術上的領先水平。相關學術論文「CPNet: Exploiting CLIP-based Attention Condenser and Probability Map Guidance for High-fidelity Talking Face Generation」被國際多媒體旗艦學術會議ICME 2023（IEEE International Conference on Multimedia and Expo)成功錄用。

深耕AI語音多模態技術，實現在地化智慧互動體驗

目前，傳音數位人系統已經在多個業務場景中廣泛應用。它不僅在海外手機門市用作智慧導購員，為用戶購買手機提供參考，也能夠為各類智慧終端產品提供智慧語音助理功能，提升用戶體驗。未來，傳音將進一步利用「AI 數位人」技術，為多種場景的業務賦能，積極探索數位人版語音助理和客服系統等新的商業形態，為用戶帶來全新的智慧互動體驗

持續建構AI語音底層技術能力

在AI技術快速發展的現今，演算法產生音訊和音訊偽造已經可以做到以假亂真，對於一般使用者來說辨別音訊真假非常困難。為了維護資訊的可信賴性、保障社會安全，語音偽造檢測技術變得至關重要，已成為人工智慧領域的一個較新的研究方向。傳音圍繞智慧終端產品業務場景，以本地用戶需求為導向，不斷延伸AI語音底層技術能力，佈局新技術領域，在語音偽造檢測技術上取得了重大突破。

傳音AI技術部在國際人工智慧聯合會議IJCAI 2023（The 32nd International Joint Conference on Artificial Intelligence）組織的第二屆語音深度偽造檢測國際挑戰賽ADD（The Second Audio Deepfake Detection Challenge)「篡改區域定位」（Manipulation Region Location）分賽道上奪得第二名。在比賽中，傳音AI技術部自研創新的AI模型演算法與技術，能夠準確辨識並定位音訊中語音的篡改行為，從而有效保障數位音訊的原始性和真實性，為AI應用及資訊安全建設提供新思路。相關學術論文已成功發表在本屆IJCAI 2023 Workshop on Deepfake Audio Detection and Analysis (DADA 2023）會議上。

深耕AI語音多模態技術，實現在地化智慧互動體驗