人工智慧從業人員在談到語音對語音技術時通常會遇到常見的三個障礙。
人工智慧(AI)能夠產生類似人類的數據的前景已經被談論了幾十年。然而,資料科學家已經解決了這個問題,但收效甚微。精確確定創建此類系統的有效策略帶來了從技術到倫理以及兩者之間的各個方面的挑戰。然而,生成式人工智慧已成為值得關注的亮點。
在最基本的情況下,生成式人工智慧使機器能夠使用音訊檔案、文字和圖像等元素來產生從語音到寫作到藝術的內容。科技投資公司SequoiaCapita公司表示:「生成式人工智慧不僅會變得更快、更便宜,在某些情況下還會比人類手工創造的人工智慧更好。」
特別是基於生成語音的機器學習技術,最近的進展已經取得了巨大的進步,但人們仍然有很長的路要走。事實上,語音壓縮出現在人們非常依賴的應用程式中,例如Zoom和Teams,這仍然是基於上世紀80年代和90年代的技術。雖然語音對語音技術有無限的潛力,但評估生成式人工智慧發展障礙的挑戰和缺點至關重要。
以下是人工智慧從業人員在談到語音對語音技術時常見的三個障礙。
1.音質
可以說,最佳對話最重要的部分是它是可以理解的。在語音對語音技術的情況下,目標是聽起來像人。例如,Siri和Alexa的機器人語調就像機器一樣,而且並不總是清晰。這很難透過人工智慧實現,有幾個原因,但人類語言的細微差別起了很大作用。
梅拉比安法則可以幫助解釋這一點。人類的對話可以分為三個部分:55%的臉部表情,38%的語氣,以及僅僅7%的文字。機器理解依賴文字或內容來操作。只有在自然語言處理(NLP)方面取得了最近的進展,才有可能根據情緒、情緒、音色和其他重要(但不一定是口語)的語言方面來訓練AI模型。如果你只處理音頻,而不是視覺,這就更有挑戰性了,因為沒有超過一半的理解來自於面部表情。
2.延遲
人工智慧綜合分析可能需要時間,但在語音對語音通訊中,即時是唯一重要的時間。語音轉換必須在說話時立即發生。它還必須是準確的,你可以想像,這對一台機器來說不是一件容易的事。
即時的必要性因行業而異。例如,一個做播客的內容創造者可能更關心音質而不是即時語音轉換。但對於像客戶服務這樣的產業,時間是至關重要的。如果呼叫中心代理使用語音輔助人工智慧來回應來電者,他們可能會在品質上做出一些犧牲。儘管如此,時間對於提供積極的體驗還是至關重要的。
3.規模
為了讓語音對語音技術發揮其潛力,它必須支持各種口音、語言和方言,並且對每個人都可用——而不僅僅是特定的地區或市場。這需要掌握技術的特定應用程序,並進行大量的調優和培訓,以便有效地擴展。
新興的技術解決方案並不是萬能的;對於給定的解決方案,所有使用者都需要透過數千個體系結構來支援這種AI基礎設施。使用者還應該期望對模型進行一致的測試。這並不新鮮:機器學習的所有經典挑戰也適用於生成式AI領域。
那麼,人們如何開始解決這些問題,從而開始意識到語音對語音技術的價值呢?幸運的是,當你逐步分解它時,它就不那麼可怕了。首先,你必須掌握這個問題。前面我舉了一個呼叫中心和內容創作者的例子。確保你考慮了用例和期望的結果,並從那裡開始。
第二,確保您的組織擁有正確的體系結構和演算法。但在此之前,要確保企業有正確的數據。數據品質很重要,特別是在考慮人類語言和語音這樣敏感的東西時。最後,如果您的應用程式需要即時語音轉換,請確保該功能得到支援。最終,沒人想跟機器人說話。
雖然關於產生人工智慧深度造假、同意和適當披露的倫理擔憂現在逐漸浮出水面,但重要的是首先要理解和解決基本問題。語音對語音技術有可能徹底改變我們理解彼此的方式,為將人們團結起來的創新創造機會。但為了實現這一目標,必須先面對主要挑戰。 ?
以上是人工智慧語音技術的三大挑戰的詳細內容。更多資訊請關注PHP中文網其他相關文章!

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

Atom編輯器mac版下載
最受歡迎的的開源編輯器

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3 Linux新版
SublimeText3 Linux最新版

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中