搜尋
首頁科技週邊人工智慧語音辨識的發展之路要怎麼走

語音辨識的發展之路要怎麼走

Apr 12, 2023 pm 05:01 PM
語音辨識

透過利用深度學習技術進行自然語言的深度理解,一直是人們關注的焦點。聽音樂不需要自己查找,開燈不需要動手,空調能聽懂你的心聲……這些場景在許多影視作品中有所表現,也代表了許多人腦海中「智慧生活」的概念。基於此,在人工智慧發展的熱潮中,自然語言處理成為了各大企業和科學研究機構競爭的戰場。

語音辨識的發展之路要怎麼走

目前,語音互動賽道已匯集了網路巨頭、知名硬體企業、電器平台、傳統家電廠商以及各類人工智慧新創公司,特別是近幾年以智慧音箱為代表的語音互動產品在國內外的火爆,大大激發了語音互動技術的應用與發展。

多個領域均有應用落地

近段時間,智慧家居硬體中風頭最盛的無疑是小米AI音箱。此品一推出,便在市場上引起了極大反響,被眾多媒體稱為“交互體驗最好的音箱”、“智能音箱界的擔當”、“目前'最熱門'的智能硬體”…而在小編看來,小米AI音箱優秀,沒錯,但也沒到他們誇的這種程度。以小編周遭人的具體使用經驗來看,其語音辨識能力並沒有特別突出,與目前市場上主流同類產品區別不大。它最大的優勢是在生態鏈方面,透過小米AI音箱,可以控制小米檯燈、小米掃地機器人、小米落地扇等配套家具設備。毫無疑問,這將使得人們距離智慧生活更進一步。

在汽車及智慧型行動裝置領域,語音互動功能已經很普及。在開車的時候,人們往往騰不出手,也不應該騰出手去操作手機,這時候,車載語音就成了必需品,也成了車聯網標配。在當下這個智慧互聯、無人駕駛被炒得火熱的時代,新車不帶點語音辨識的黑科技,似乎都不好意思拿出手。福特的SYNC系統專為手機和數位媒體播放器配備的福特車載多媒體通訊娛樂系統,是目前車載系統中採用語音互動技術的成功的案例,已經廣泛應用在福特多個系列汽車中。網路巨頭蘋果在其iPhone4S中推出智慧語音助理應用Siri後,Google公司也在其安卓智慧型手機作業系統中推出了GoogleNow智慧語音搜尋及問答服務,微軟公司也將語音技術應用於WindowsPhone,三星也適時推出了Bixby。

在金融領域。語音辨識技術也有了用武之地。近日,中國建設銀行在上海黃浦區開設了一家自動化服務支行,由機器人為顧客服務。機器人組裝臉部掃描辨識軟體,可以解答顧客的大部分問題,解決一般高街銀行絕大部分的業務需求,同時也配備人工輔助服務以及其他專業服務,以滿足個人化需求。顧客由機器人接待,這些機器人透過語音辨識功能,與人交流,解答顧客的問題。人工服務能做到的事,它們也能完成絕大部分,包括開戶、轉帳以及投資。

此外,在新零售領域,智慧語音技術的應用也不斷擴展。例如2017年12月18日,科大訊飛和紅星美凱龍發布策略合作計劃,未來由科大訊飛研發的智慧導購機器人「美美」將在全國紅星美凱龍門市上市。

除了語音互動之外,語音轉文字也是目前語音辨識技術中的一大熱點。早先,這個功能是新聞工作者的最愛,用此功能整理採訪稿件、演講稿件能極大的提高工作效率,如今,這個功能正在被普通人接受,老人、懶癌發作的年輕人都可以使用此功能來替代打字。

時至今日,資本的湧入、政策的扶持、市場的一再擴容,使得語音技術日益成熟,全球語音市場也迎來了一個應用落地的黃金發展期。根據相關統計顯示,2016年智慧語音產業規模直逼60億元大關,2017年將破百億,年增69%左右。

技術現況並不會讓人滿意

與語音辨識在多個領域開枝散葉形成對比的是,語音辨識技術的發展頗為緩慢,在這種形勢下,語音辨識技術在實際應用上碰到了許多問題。

現在有很多企業說自己的語音辨識率已經達到了97%甚至是98%,但在實際應用中,效果並不能讓人滿意。舉一個比較有信服力的例子,IBMT.JWatson研究院開發的中文語音辨識系統連續三年在美國DARPA主辦的競賽中名列第一,該系統在識別央視《新聞聯播》節目時,其錯誤率小於5%,但在識別其它內容時,差距非常大。在實際應用中,辨識率主要受到以下幾個因素的影響:

對於漢語語音識別,方言或口音會降低辨識率。

公共場所的強烈噪音對辨識效果影響甚大,即使在實驗室環境下,敲擊鍵盤、移動麥克風都會成為背景噪音。

打斷問題,如果人在說話時有停頓,機器就不能很好的聯繫上下文使語義通順。

此處,還有「口語」問題。它既涉及自然語言理解,也與聲學有關。語音辨識技術的最終目的是要讓使用者在「人機對話」時,能夠像進行「人與人對話」一樣自然,而一旦使用者以跟人交談的方式進行語音輸入時,口語的語法不規範和語序不正常的特徵會為語意的分析和理解帶來困難。

語音辨識的技術迭代

先前,就有人指出口音、新詞彙等問題可以透過語音辨識技術在實際應用中的資料擷取來實現。隨著數據量的增加,這種問題都能解決。

而另外諸如「打斷」等問題,便需要各種深度學習模型,如DNN、CNN、BLSTM(雙向長短時記憶神經網路)等,以及新的演算法,來逐步解決。

技術使用起來往往需要一個迭代的過程的,需要先上線,然後在場景裡收集資料去評估,優化模型,改善使用者體驗。經過幾輪迭代,才可以發揮最佳效果。其他AI技術也是相似的。今天很多AI技術的使用者很容易把技術的能力理想化,感覺一引入,就應該立竿見影的看到效果。看到實際效果不盡人意時,就會覺得有很大的落差,失望和放棄。誠然,智慧語音技術已經達到廣發應用的水平,但在真正落地的時候,要充分認識到可能遇到的困難,有持久戰的思想準備。

語音辨識的發展之路要怎麼走

總結

可以預測在近五到十年內,語音辨識系統的應用將更加廣泛。各種各樣的語音辨識系統產品將出現在市場上。人們也將調整自己的說話方式以適應各種各樣的識別系統。在短期內還不可能創造出具有和人類相比擬的語音辨識系統,要建成這樣一個系統仍然是人類面臨的一個大的挑戰,我們只能一步步朝著改進語音辨識系統的方向一步步地前進。至於什麼時候可以建立一個像人一樣完善的語音辨識系統則是很難預測的。就像在60年代,誰能預測今天超大規模積體電路技術會對我們的社會產生這麼大的影響。

以上是語音辨識的發展之路要怎麼走的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器