智慧音箱這類如今幾乎已經被大量消費者遺忘的產品,在先前經歷了2017年、2018年的「瘋狂」之後,早已不再是大多數消費者關注的對象。就在大家以為智慧音箱會曇花一現時,ChatGPT的橫空出世似乎讓智慧音箱有了煥發第二春的可能,也給了這個在走下坡路的行業一個新的機會。那麼,智慧音箱與現今爆紅的生成式AI能擦出火花嗎?
生成式AI之於智慧音箱產業,或許就是久旱逢甘霖。根據相關市場調查數據顯示,2023年第一季度,受產品同質化嚴重和消費者需求下降等因素的疊加影響,國內智慧音箱在線上的監測零售量為157萬台、再次下跌40.6%,而在整個2022年,智慧音箱國內全通路銷量為2,631萬台、年減了28%。
為什麼曾經被各大巨頭寄予厚望、甚至被視為可能是智能家庭入口的智能音箱,會在近年來滑入深淵呢?原因其實只有一個,就是智慧音箱真的不夠聰明。
在智慧音箱這概念火爆的2017年,業界曾有關於智慧音箱的重心到底應該在「智慧」還是「音質」上的討論。最終,騰訊聽聽、蘋果HomePod等一系列注重音質的產品,用它們的慘烈失敗證明智慧音箱的賣點只有可能是智慧化。
然而遺憾的是,絕大多數智慧音箱的智慧化程度只能用「捉襟見肘」來形容,而各大廠商對於ASR(語音辨識)、NLP自然語意處理、遠場拾音等人工智慧和聲學技術的進步,又實在有些過於樂觀。其實智慧音箱從技術層面來說很簡單,它的工作模式就是收集使用者的聲音,然後將音訊傳送到伺服器、再計算並產出結果,最終將結果傳送到智慧音箱上變成具體的行為,例如打開某個應用程式或是回覆用戶的提問。
沒錯,智慧音箱本身其實與人工智慧並不沾邊,小愛同學、小度、天貓精靈的真身藏在了相應的伺服器端上。這一切也導致了決定智慧音箱使用體驗的關鍵是遠場拾音技術,也就是在複雜的聲學環境下準確捕捉用戶語音指令的能力,畢竟總不能出現用戶說“講個笑話”,智能音箱聽成「放首歌」了吧。
智慧音箱的解決方案,則是使用大規模麥克風陣列來收集聲音,但其中卻有一個痛點一直得不到解決,那就是語音喚醒(keyword spotting)。大家在使用智慧音箱時,需要用到諸如「Hi,Siri」、「小愛同學」、「小度小度」這樣的喚醒詞,讓智慧音箱知道你在跟它說話,這也就意味著智能音箱缺乏主動服務的能力。更重要的是,由於技術的限制,智慧音箱長期以來只能理解簡單的指令,例如「音量調大一點/調小一點」、「播放某某人的某某歌」等,再複雜一些的語句辨識起來往往就很難。
而ChatGPT、文心一言這類生成式AI之於智慧音箱的意義,就是前者可以幫助智慧音箱理解更複雜的語句,並提供更自然的溝通。相信使用過微軟Bing Chat、百度文心一言或ChatGPT的朋友應該就知道,在與這類生成式AI對話時,並不需要用諸如“Hi,ChatGPT”這樣的開場白,直接輸入內容即可開始對話進程。
由於生成式AI是在基於大規模語言模型(LLM,Large Language Model)的基礎上,加入了人工標註數據和從人類反饋中進行強化學習技術,再輔以知識圖譜技術,即一種將知識寫成結構化三元組(包含實體、概念和關係)的多關係圖,讓AI得以理解人類指令的意義,並最終從龐大的資訊資料庫中選擇內容來回答。
ChatGPT這類產品比起Siri、小愛同學最大的變化,就是有了多輪對話的能力。相比Siri幾乎是“魚的記憶”,ChatGPT可以一直與用戶對話,再加上對於情緒更清晰的感知,讓用戶以為真的是在與活生生的人對話。對於一個消費級產品而言,使用者顯然並不在乎背後的技術原理有多高深,而是關注它能否解決問題或滿足需求。
生成式AI的魅力就在於它的能力上限很高,其中典型的例子就是微軟的Microsoft Copilot,同時它還能在某種程度上滿足用戶的社交需求,如今在海外已有創作者藉助ChatGPT ,推出了以自己為模型的“虛擬伴侶”,並收穫了超過1000名用戶。總的來說,將生成式AI與智慧音箱結合幾乎能補足後者的短板,使得其在消費級賽道擁有了可堪一用的智慧化水準。
事實上,部分智慧音箱廠商已經行動起來了。例如今年2月,百度在預熱文心一言時,小度就已宣布將融合文心一言,打造針對智慧型裝置場景的AI模型「小度靈機」;4月天貓精靈接入「鳥鳥分鳥」模型打造的“AI嘴替”,同時宣佈接入阿里巴巴的通義千問。
但要指出的是,生成式AI並非「萬靈藥」。就目前來說,一切生成式AI都面臨著一個不可避免的問題,那就是算力資源的稀缺。最近生成式AI天花板GPT-4「變笨」的消息引發了許多關注,相較於剛發佈時的狀態,如今GPT-4的文字程式碼品質全方位下降已然成為了用戶的共識。
沒錯,其實不只是GPT-4,像是ChatGPT、文心一言等面向大眾的這類產品都出現了類似的情況,使用者量的增加導致了大模型表現的下降。
現在生成式AI領域面臨的核心問題,就是算力資源緊張、無法應付洶湧而來的用戶,而為了確保用戶體驗,這類產品就只能降低大模型的效能、減少生成內容的時間來給伺服器「減負」。相較之下,智慧音箱的存量市場規模無疑更加龐大,所以在接取生成式AI後,幾乎不可避免地會遇到類似的問題。
未來很有可能會出現的情況,是智慧音箱的智慧化水平呈現出一條拋物線,初期用戶體驗會跨越式提升,但隨著用戶規模的不斷增加,智能化表現反而可能會“退化”回數年前的水平。
以上是爆火的生成式AI,能讓智慧音箱起死回生嗎?的詳細內容。更多資訊請關注PHP中文網其他相關文章!