語音辨識的發展之路要怎麼走-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

語音辨識的發展之路要怎麼走

PHPz

Apr 12, 2023 pm 05:01 PM

語音辨識

透過利用深度學習技術進行自然語言的深度理解，一直是人們關注的焦點。聽音樂不需要自己查找，開燈不需要動手，空調能聽懂你的心聲……這些場景在許多影視作品中有所表現，也代表了許多人腦海中「智慧生活」的概念。基於此，在人工智慧發展的熱潮中，自然語言處理成為了各大企業和科學研究機構競爭的戰場。

語音辨識的發展之路要怎麼走

目前，語音互動賽道已匯集了網路巨頭、知名硬體企業、電器平台、傳統家電廠商以及各類人工智慧新創公司，特別是近幾年以智慧音箱為代表的語音互動產品在國內外的火爆，大大激發了語音互動技術的應用與發展。

多個領域均有應用落地

近段時間，智慧家居硬體中風頭最盛的無疑是小米AI音箱。此品一推出，便在市場上引起了極大反響，被眾多媒體稱為“交互體驗最好的音箱”、“智能音箱界的擔當”、“目前'最熱門'的智能硬體”…而在小編看來，小米AI音箱優秀，沒錯，但也沒到他們誇的這種程度。以小編周遭人的具體使用經驗來看，其語音辨識能力並沒有特別突出，與目前市場上主流同類產品區別不大。它最大的優勢是在生態鏈方面，透過小米AI音箱，可以控制小米檯燈、小米掃地機器人、小米落地扇等配套家具設備。毫無疑問，這將使得人們距離智慧生活更進一步。

在汽車及智慧型行動裝置領域，語音互動功能已經很普及。在開車的時候，人們往往騰不出手，也不應該騰出手去操作手機，這時候，車載語音就成了必需品，也成了車聯網標配。在當下這個智慧互聯、無人駕駛被炒得火熱的時代，新車不帶點語音辨識的黑科技，似乎都不好意思拿出手。福特的SYNC系統專為手機和數位媒體播放器配備的福特車載多媒體通訊娛樂系統，是目前車載系統中採用語音互動技術的成功的案例，已經廣泛應用在福特多個系列汽車中。網路巨頭蘋果在其iPhone4S中推出智慧語音助理應用Siri後，Google公司也在其安卓智慧型手機作業系統中推出了GoogleNow智慧語音搜尋及問答服務，微軟公司也將語音技術應用於WindowsPhone，三星也適時推出了Bixby。

在金融領域。語音辨識技術也有了用武之地。近日，中國建設銀行在上海黃浦區開設了一家自動化服務支行，由機器人為顧客服務。機器人組裝臉部掃描辨識軟體，可以解答顧客的大部分問題，解決一般高街銀行絕大部分的業務需求，同時也配備人工輔助服務以及其他專業服務，以滿足個人化需求。顧客由機器人接待，這些機器人透過語音辨識功能，與人交流，解答顧客的問題。人工服務能做到的事，它們也能完成絕大部分，包括開戶、轉帳以及投資。

此外，在新零售領域，智慧語音技術的應用也不斷擴展。例如2017年12月18日，科大訊飛和紅星美凱龍發布策略合作計劃，未來由科大訊飛研發的智慧導購機器人「美美」將在全國紅星美凱龍門市上市。

除了語音互動之外，語音轉文字也是目前語音辨識技術中的一大熱點。早先，這個功能是新聞工作者的最愛，用此功能整理採訪稿件、演講稿件能極大的提高工作效率，如今，這個功能正在被普通人接受，老人、懶癌發作的年輕人都可以使用此功能來替代打字。

時至今日，資本的湧入、政策的扶持、市場的一再擴容，使得語音技術日益成熟，全球語音市場也迎來了一個應用落地的黃金發展期。根據相關統計顯示，2016年智慧語音產業規模直逼60億元大關，2017年將破百億，年增69%左右。

技術現況並不會讓人滿意

與語音辨識在多個領域開枝散葉形成對比的是，語音辨識技術的發展頗為緩慢，在這種形勢下，語音辨識技術在實際應用上碰到了許多問題。

現在有很多企業說自己的語音辨識率已經達到了97%甚至是98%，但在實際應用中，效果並不能讓人滿意。舉一個比較有信服力的例子，IBMT.JWatson研究院開發的中文語音辨識系統連續三年在美國DARPA主辦的競賽中名列第一，該系統在識別央視《新聞聯播》節目時，其錯誤率小於5%，但在識別其它內容時，差距非常大。在實際應用中，辨識率主要受到以下幾個因素的影響：

對於漢語語音識別，方言或口音會降低辨識率。

公共場所的強烈噪音對辨識效果影響甚大，即使在實驗室環境下，敲擊鍵盤、移動麥克風都會成為背景噪音。

打斷問題，如果人在說話時有停頓，機器就不能很好的聯繫上下文使語義通順。

此處，還有「口語」問題。它既涉及自然語言理解，也與聲學有關。語音辨識技術的最終目的是要讓使用者在「人機對話」時，能夠像進行「人與人對話」一樣自然，而一旦使用者以跟人交談的方式進行語音輸入時，口語的語法不規範和語序不正常的特徵會為語意的分析和理解帶來困難。

語音辨識的技術迭代

先前，就有人指出口音、新詞彙等問題可以透過語音辨識技術在實際應用中的資料擷取來實現。隨著數據量的增加，這種問題都能解決。

而另外諸如「打斷」等問題，便需要各種深度學習模型，如DNN、CNN、BLSTM（雙向長短時記憶神經網路）等，以及新的演算法，來逐步解決。

技術使用起來往往需要一個迭代的過程的，需要先上線，然後在場景裡收集資料去評估，優化模型，改善使用者體驗。經過幾輪迭代，才可以發揮最佳效果。其他AI技術也是相似的。今天很多AI技術的使用者很容易把技術的能力理想化，感覺一引入，就應該立竿見影的看到效果。看到實際效果不盡人意時，就會覺得有很大的落差，失望和放棄。誠然，智慧語音技術已經達到廣發應用的水平，但在真正落地的時候，要充分認識到可能遇到的困難，有持久戰的思想準備。

語音辨識的發展之路要怎麼走

總結

可以預測在近五到十年內，語音辨識系統的應用將更加廣泛。各種各樣的語音辨識系統產品將出現在市場上。人們也將調整自己的說話方式以適應各種各樣的識別系統。在短期內還不可能創造出具有和人類相比擬的語音辨識系統，要建成這樣一個系統仍然是人類面臨的一個大的挑戰，我們只能一步步朝著改進語音辨識系統的方向一步步地前進。至於什麼時候可以建立一個像人一樣完善的語音辨識系統則是很難預測的。就像在60年代，誰能預測今天超大規模積體電路技術會對我們的社會產生這麼大的影響。

以上是語音辨識的發展之路要怎麼走的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除