首頁 >常見問題 >未來說：超低延遲的即時人工智慧語音代理

未來說：超低延遲的即時人工智慧語音代理

James Robert Taylor原創: 2024-09-24 16:34:31709瀏覽

語音模式已迅速成為對話式人工智慧的旗艦功能，讓使用者感到輕鬆並允許他們以最自然的方式（透過語音）進行互動。 OpenAI 不斷開拓創新，推出了延遲低於 500 毫秒的即時 AI 語音代理。這項成就背後的技術現已開源，提供了無與倫比的工具存取權限，使建立高品質的響應式語音代理成為可能。

thumbnail (1).jpg

語音模式有迅速成為對話式人工智慧的旗艦功能，讓使用者感到輕鬆並允許他們以最自然的方式（透過語音）進行互動。 OpenAI 不斷開拓創新，推出了延遲低於 500 毫秒的即時 AI 語音代理。這項成就背後的技術現已開源，提供了無與倫比的工具存取權限，使建立高品質的響應式語音代理成為可能。

OpenAI 並沒有採取任何行動。當他們為 ChatGPT 開發語音功能時，他們引進了頂尖的選角和導演人才，以確保聲音具有身臨其境的感覺，同時又讓他們看起來像是屬於自己的。隨後，400 名試鏡者被削減至今天的 5 名。這並不是說一切都是一帆風順的。不是當公司不得不擱置“天空”，因為它與斯嘉麗約翰遜驚人的相似。

但真正令人興奮的是最新的發展：能夠在本地利用這項技術。想像一下，在您自己的 GPU 上進行即時語音到語音處理，延遲低於 500 毫秒。這不再是一個遙遠的夢想：系統現在已完全開源。

它是如何運作的？

為了實現如此小的延遲，AI 管道被分為不同的組件，每個組件都經過優化為了速度和效率：

1。語音活動偵測 (VAD)

管道從 Silero VAD v5 模組開始，負責偵測使用者何時結束演講。它是觸發下一階段處理的「看門人」。

2.即時轉錄（語音到文字）

這部分流程使用一些更複雜的模型（例如 Whisper 或 DeepSpeech）將使用者的語音轉錄為文字。例如，Whisper 是即時運行的，係數為 0.5；因此，它可以以兩倍於即時速度的速度處理語音，並在大約 100 毫秒內提供準確的轉錄。

3.反應生成

隨著轉錄的進行，大型語言模型（LLM）開始同時預測可能的反應。在 200 毫秒內，系統可以產生相關的基於文字的回應。

4.語音合成（文字轉語音）

使用快速語音合成器立即將產生的反應轉換為語音，這還需要 200 毫秒才能產生高品質的音訊。

透過並行提高效率處理

這種令人印象深刻的速度的秘密在於並行處理。與順序處理組件或一次處理一項任務相比，系統同時進行轉錄、反應生成和語音合成。這種端到端的設計確保了流程的各個部分協同工作，大大減少了完成用戶交互所需的總體時間

例如，當系統檢測到語音結束時，系統會啟動轉錄過程。當轉錄完成時，語言模型已產生回應，隨後立即開始語音合成。這種任務並行處理確保從使用者語音到 AI 回應的整體互動在 500 毫秒內完成。

結論：解鎖語音 AI 的未來

AI 語音代理 down人機互動延遲達到500ms，是無縫人機互動的重大發展。該技術的使用是透過即時轉錄、快速回應生成和語音合成，同時提供超響應的對話體驗。

這意味著，隨著整個管道開源，可以整合此技術技術融入您的專案。開發人員可以針對各種應用程式微調和自訂其語音代理，包括語音助理甚至即時遊戲化身。

這不僅僅是向前邁出的一步；這是建立對話式人工智慧未來的邀請。那麼，你會用它創造什麼？

以上是未來說：超低延遲的即時人工智慧語音代理的詳細內容。更多資訊請關注PHP中文網其他相關文章！

less if for while using this chatgpt whisper Access

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：機器學習和人工智慧如何改變行動應用程式中的醫療診斷下一篇：機器學習和人工智慧如何改變行動應用程式中的醫療診斷

看更多