今天要來跟大家介紹一下關於語音辨識相關的知識,希望對大家有幫助!
語音指的是人類透過發聲器官發出來具有一定意義、用來溝通溝通的聲音。
電腦中語音儲存:以波形檔案的方式存儲,透過波形反映語音的變化,從而可以獲取音強、音長等參數資訊。
音域參數:傅利葉譜、梅爾頻率到譜係數,主要用來擷取語音內容以及音色的差別,用來更進一步辨別語音訊息。
語音辨識簡單來說就是把語音內容自動轉換為文字的過程,是人與機器互動的一種技術。
涉及領域:聲學、人工智慧、數位訊號處理、心理學等面向。
語音辨識的輸入:對一段聲音檔案進行播放的序列。
語音辨識的輸出:輸出的結果是一段文字序列。
語音辨識需要經過特徵擷取、聲學模型、語音模型、語音解碼和搜尋演算法四個部分。
特徵提取:把要分析的訊號從最原始訊號提取出來,這個階段主要是對語音的幅度標準化、頻響校正、分幀、加窗、始末端點檢測等預處理操作,為聲學模型提供需要特徵向量。
聲學模型:依靠聲學模型進行語音參數分析(語音共振峰頻率、振幅等)和對語音的線性預測參數進行分析。
語言模型:根據相關語言學理論,計算出聲音片段可能詞組序列的機率。
語音解碼與搜尋演算法:根據聲學模型 發音字典 語音模型建立的搜尋空間,找到最合適的路徑。解碼完成後最終輸出文字。
一個完整的語音辨識系統包括:預處理、特徵提取、聲學模型訓練、語言模型訓練、語音解碼器。
4.1 預處理
對輸入的原始聲音訊號進行處理,過濾掉其中的背景噪音、非重要訊息,還要對找到語音訊號的開始和結束、語音分幀、提升高頻部分的訊號等操作。
4.2 特徵提取
最常用的特徵提取方法為梅爾頓到譜係數(MFCC),因為它擁有良好的抗噪性和健全性。
4.3 聲學模型訓練
根據懸戀語音庫的特徵參數訓練出聲學模型參數,從而可以在識別時與聲學模型進行匹配得到相應結果。目前主流語音辨識系統一般都會採用HMM進行聲學模型建模。
4.4 語言模型訓練
用來預測哪個字序列正確的可能性較大。
4.5 語音解碼器
解碼器也就是語音辨識技術中的辨識過程,根據輸入的語音訊號,然後和訓練好的HMM聲學模型、語言模型、發音字典建立一個搜尋空間,根據搜尋演算法找到最適合的路徑。從而找到最適合的詞串。
5、語音辨識的使用場景
語音辨識在日常生活中使用非常廣泛主要分為封閉式和開放式應用。
封閉式應用:主要指針對特定控制指令的應用。
例如常見的有智慧家庭例如透過語音指令控制燈開關、熱水器開關溫度調節、打開空調等,大大豐富了我們日常的生活;
開放式應用:開放式主要是廠商提供語音辨識服務,一般會公有雲或私有雲的方式部署提供對應的SDK,讓使用服務的客戶進行語音辨識服務的呼叫。
常見的場景有輸入法、會議字幕即時輸出、影片剪輯字幕配置等場景。
以上是人工智慧:語音辨識技術的詳細內容。更多資訊請關注PHP中文網其他相關文章!