首頁 >科技週邊 >人工智慧 >AI創作驚艷四方,許多挑戰仍待克服

AI創作驚艷四方,許多挑戰仍待克服

PHPz
PHPz轉載
2023-04-11 13:43:031395瀏覽

AI創作驚艷四方,許多挑戰仍待克服

2022年8月,一幅名為《太空歌劇院》的數位畫作獲得冠軍同時引發了巨大爭議,AIGC(AI產生內容:AI-Generated Content)出圈的事件便頻頻出現在大眾視野。同年11月30日OpenAI發布的聊天機器人模型ChatGPT免費開放,更掀起了人們對AIGC的廣泛興趣,各種花式問題,例如改代碼,談學問、問人生…ChatGPT的「機智」與「博學」令人刮目相看並耳目一新。

ChatGPT之所以引起了廣泛關注,在於OpenAI 先後發布了三代GPT模型,每一代模型參數量都比前一代增長了10倍甚至100倍,進入GPT-3.5代的模型則是採用了RLHF(從人類回饋強化學習)方式,能夠更好地理解人類語言的含義,即與人類在聊天、文章撰寫、解答詢問、代碼查錯等互動時更像一個經過“認真思考”慎重給出答案的「人」。

面對圈內如此熱點,在火山語音音頻合成演算法研究員Stephen看來:「之所以AIGC近期表現大熱,與AI生產的內容品質階梯式提升密不可分。AI作為生產工具觸發了更高的效率,AIGC則包含了文本生成、音頻生成、圖像生成和視頻生成等諸多方向,也會反過來刺激其背後的人工智能技術快速發展,逐漸體現出極大的商業價值。」

聲情並茂與能說會演 成為AI語音的主要難點

我們經常會感慨,AI作畫讓你領略的是AI的“想像力”, 以ChatGPT為代表的AI問答則讓你因為其博學與答案的「可讀性」而震驚,而AI語音則考驗的是TA能否像真人一樣對內容正確理解後,透過匹配人設的音色以及符合當時情景的語氣表達出來,這一點在火山語音(位元組跳動AI Lab 智慧語音與音訊團隊)與番茄小說的合作中屢見不鮮,AI演算法生成的語音可以讓你直接去聽任何文字版的小說,而且聽起來「更聰明一點」:差異化的音色配合恰當的語氣,在朗讀時化身「戲精」演繹出「喜怒哀樂」。

據了解,要讓AI聲情並茂與能說會演,首先需要確保輸出內容不讀錯,這就需要文字分析模型來進行解析。 「在番茄小說中,文本分析前端我們採用了NLP 領域應用廣泛的Transformer 架構模型BERT。主要透過神經網路加規則混合的正則化模型(TN)和多任務前端模型,結合長期的人工規則修正,不斷提升前端的句級精度,並透過蒸餾、量化等技術降低了算力需求。」

此外為了讓語音聽感更佳,團隊也基於常規TTS 流程加入了更多功能模組,實現了角色歸屬與情感控制。例如在角色歸屬中同樣採用了 BERT結構,進行對話判定和指涉消歧兩個任務的建模,另外也採用了類似的結構進行情緒預測。 「通常小說文字中會出現多人對話,每個說話者又有屬於自己的多種情感,如果可以將音色和情感進行解耦,就可以更好地控制合成語音的表現力,實現不同音色與不同情感的靈活組合,這個很關鍵。」

重要的一點,為了讓AI能夠理解各種類型小說的文本,火山語音也率先提出了「AI 文本理解」模型,即一套多任務的長文本理解AI系統。能夠自動化地從小說文本中區分出對話的角色、判別出對話中所想要表達出的情感、預測出合理的句間停頓,極大地提升了精品AI 有聲書的製作效率,有效突破了人工標註的生產瓶頸。

AI創作驚艷四方,許多挑戰仍待克服

「Al文字理解」模型

更進一步,火山語音團隊在滿足發音清晰、韻律連貫、語調起伏的基礎上,自研半監督學習的端到端風格控制聲學模型,使聲音遵循普魯契克情感色輪(Plutchik's Wheel of Emotions)的情感類型,表現出開心、悲傷、驚訝、恐懼等多種情感色彩,以情感遷移的方式,讓原本沒有情感的發音獲得多情感合成的效果。更好地表達“以聲傳情”,將人類語言中常會出現的“副語言”現象進行了精細化的建模還原,實現了在有聲書中常見的重音停頓、疑問反問、笑聲哭腔、以及各類嘆息、叫喊聲等,達成了文本內容的精彩演繹。

「接近真人播講的效果,使最終的AI語音能夠體現出不同角色在不同上下文環境中的效果,是我們一直以來追求的目標。未來,我們更希望可以做到,透過文本-語音聯合訓練大模型,對不同上下文環境的文本提取表徵,提升角色判別成功率;憑藉多話者語音合成大模型,對情感、風格、音色和口音等屬性進行解耦並能夠自由遷移;同時根據文本描述產生匹配的背景音來提升有聲書聆聽時的代入感。」

提高內容品質和產生效率才是AIGC的核心價值

在更多實踐中我們發現,除了文字和圖像,人們對語音互動的應用範圍更廣,例如,人們在家中經常透過語音互動發出指令控制各種電器;出行時透過車載語音助理完成導航、預定餐廳等事項;以及在辦公場景中高頻率使用的會議助理等,都離不開智慧語音方案來提升內容品質與生產效率。

對此火山語音團隊也隨之進行了更多相關的創新性嘗試,例如在短視頻成為全民時尚的今天,面對UGC群體視頻創作的隨性記錄以及音頻質量不可控等現實因素,透過火山語音智慧字幕解決方案為影片創作自動添加字幕,不僅可以相容於辨識中、英、粵等常用的語言和方言,還能辨識歌曲。

對此火山語音音訊理解方向產品經理W補充道:「視訊內容生產中,傳統加字幕的方式需要創作者對視訊進行數次聽寫併校對,還需要根據起始時間逐幀對齊,經常10分鐘的視頻需要幾小時的後期製作時間才能完成。此外字幕組還要精通多語言並熟悉字幕文件的製作,整體下來視頻製作成本很高,這對於當今短視頻時代的個人創作者或單純以記錄生活的用戶來說早已高不可及。」

為了降低創作門檻,讓所有創作者都能輕鬆製作高品質的視訊內容,記錄美好生活,火山語音自研推出了智慧字幕解決方案。不僅能夠高效識別方言與歌曲,還可以對語種混合以及說話唱歌混合的場景有很好的識別效果;此外還可通過對用戶創作內容的音頻特性以及領域分析,憑藉算法優化,大大提升語音識別對於噪音場景、多人說話等複雜場景的表現。尤其面對行動端用戶針對功能回應時間的較高要求,即希望字幕可以既快且準,對此火山語音做了大量的工程優化和策略,1分鐘的影片只需2-3秒即可完成。

 眾所周知,面對相同的內容,人類對於音訊訊息的獲取效率遠低於文字訊息的獲取效率,而將語音轉化成文字被記錄與使用的關鍵在於語音識別,例如火山語音推出的「千言轉文字,一字勝千言」的即時字幕解決方案就是透過「語音辨識語音翻譯」的AI鏈路,讓跨國家、跨語言交流變得更加流暢;透過自動產生會議記錄與紀要,做到大幅提升與會者的工作效率,大幅減少會後整理和會中記錄的工作量。可以預見伴隨科技的快速發展,AI語音會為人機互動增加資訊輸出的管道,提升資訊效率。

同樣面對AIGC帶來品質以及效率的提升問題,在火山語音語音交互產品經理Y看來,AIGC確實有望在智能語音交互的輔助場景中落地,可以實現包括會話摘要、話術推薦、情緒安撫、工單摘要等方向的客服功能,輔助解決方案來提高生產效率。舉個例子,當人機對話觸發轉人工時,可自動產生人機對話的對話摘要,輔助人工更快了解用戶訴求,避免出現突然冷場去翻查聊天記錄的情況;在與人對話過程中,透過對使用者話術的理解,運用AIGC能力產生答案供客服參考,提高了客服對話的效率。

“此外在异常情况处理方面也可发挥作用,比方说用户出现烦躁、愤怒等情绪时,AICG或可自动生成安抚话术供客服参考,提升服务满意度等。未来,伴随多模态技术和AIGC技术的不断成熟,或许通过虚拟数字人可取代部分人工,以人机共生的形态直接服务客户,更显著降低人力成本,提升服务效率。”但他也明确表示,如今的AIGC还无法做到真正独立生产内容,尚处于辅助人类提升内容生产效率的阶段。

成本、版权、实用性仍是AIGC发展的瓶颈

不论是ChatGPT给出的惊人回答,还是番茄小说中AI演绎出了感人声音,就连马斯克也惊叹:我们离强大到危险的人工智能不远了。这似乎预示着AIGC的时代即将来临。

然而在AI算法一线工作多年的火山语音音频合成算法研究员Stephen却有着更为清醒的判断,他指出:“AIGC背后的技术,未来可能会进行多模态融合,不仅仅是单一模态的生成式任务,这就像人类在创造内容的过程中也不仅仅是根据单一形态的知识而构思出新内容。举个例子,就像生成交互式数字人的任务中,目前主要是人脸、表情、姿态和动作的单独预测,未来或将用一个生成式模型预测这些特征,提升各特征之间的协同效果,降低分别录制带来的工作量;此外也会根据多模态理解任务得到的表征,基于正在对话的用户的表情、语气和肢体动作,在生成的形象和声音上给予对应的反馈。”

除了技术发展的预测,不容忽视的一点,目前AIGC在成本、版权和实用性上仍存在巨大挑战。他认为目前AIGC成本居高不下,很显著的表现是高质量文本、图片和视频生成技术等,都对应着大量训练和推理阶段硬件资源的消耗,这导致高校和研究机构均很难参与其中,不利于行业发展的推动。

“此外在版权保护上,目前生成的内容有些可能会被用来进行非法活动,因此在内容中加入版权保护,例如图像和音频水印变得越来越重要,但是在加入过程中,还得考虑不要因为剪切、混合等后处理方式导致水印失效。”

过去的2022年,尽管在图片和视频生成方向的技术应用效果显著提升,但依然需要大量人工筛选后,内容才能实际落地;而基于长篇章文本生成上下文相关的漫画和视频,既要保证场景的连续性,又要能体现人物的变化,还有大量的技术难题需要解决,避免人工智能变成“人工智障”是个挑战,所以实用性还有更多的提升空间。

我们或许可以这样认为,AIGC作为一种新型的内容生产方式,之所以受到关注,充分说明了各行各业对于内容的渴望,尤其是互联网平台,如何高效理解、创作、互动和分发内容,确实给现今的AI 技术带来了机遇和挑战。

以上是AI創作驚艷四方,許多挑戰仍待克服的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除