最近幾年,「視訊會議」在工作中的佔比逐漸增加,廠商也開發了各種諸如實時字幕等技術以方便會議中不同語言的人之間交流。
但還有一個痛點,要是對話中提到了一些對方很陌生的名詞,並且很難用語言描述出來,比如食物“壽喜燒”,或者是說“上週去了某個公園度假”,很難用語言給對方描述出的美景;甚至是指出“東京位於日本關東地區”,需要一張地圖來展示等,如果只用語言可能會讓對方越來越迷茫。
最近,Google在人機互動頂級會議ACM CHI(Conference on Human Factors in Computing Systems)上展示了一個系統Visual Captions,介紹了遠距會議中的一個全新視覺解決方案,可以在對話背景中產生或檢索圖片以提高對方對複雜或陌生概念的了解。
論文連結:https://research.google/pubs/pub52074/
程式碼連結:https://github.com/google/archat
#Visual Captions系統基於一個微調後的大型語言模型,可以在開放詞彙的對話中主動推薦相關的視覺元素,並已融入開源專案ARChat。
在使用者研究中,研究人員邀請了實驗室內的26位參與者,與實驗室外的10位參與者對系統進行評估,超過80%的使用者基本上都認同Video Captions可以在各種場景下能提供有用、有意義的視覺推薦,並且可以提升交流體驗。
設計想法
在開發之前,研究人員首先邀請了10位內部參與者,包括軟體工程師、研究人員、UX設計師、視覺藝術家、學生等技術與非技術背景的從業者,討論對即時視覺增強服務的特定需求和期望。
兩次會議後,根據現有的文字轉圖像系統,確立了預期原型系統的基本設計,主要包括八個維度(記為D1至D8)。
D1:時序,視覺增強系統可與對話同步或非同步展現
D2:主題,可用於表達和理解語音內容
D3:視覺,可使用廣泛的視覺內容、視覺類型和視覺來源
D4:規模,根據會議規模的不同,視覺增強效果可能有所不同
D5:空間,視訊會議是在同一地點還是在遠端設定中
D6:隱私,這些因素也影響視覺效果是否應該私下顯示、在參與者之間共享或向所有人公開
D7:初始狀態,參與者還確定了他們希望在進行對話時與系統互動的不同方式,例如,不同層次的「主動性」,即使用者可以自主確定係統何時介入聊天D8:交互,參與者設想了不同的交互方法,例如,使用語音或手勢進行輸入
以動態的視覺效果增強語言溝通的設計空間
根據初步回饋,研究人員設計了Video Caption系統,專注於產生語義相關的視覺內容、類型和來源的同步視覺效果。
雖然在探索性會議中的想法大多關注於一對一遠端對話的形式,Video Caption同樣也可以用於一對多的(例如,向觀眾進行演示)和多對多場景(多人會議討論)的部署。
除此之外,最能補充對話的視覺效果在很大程度上取決於討論的上下文,所以需要一個專門製作的訓練集。
研究人員收集了1595個四元組,包括語言、視覺內容、類型、來源,涵蓋了各種情境場景,包括日常對話、講座、旅遊指南等。
例如使用者說「我很想看看!」(I would love to see it!)對應於「臉微笑」(face smiling)的視覺內容、「表情符號」 (emoji)的視覺類型和「公共搜尋」(public search)的視覺來源。
「她有沒有告訴你我們去墨西哥的事?」對應於「來自墨西哥之旅的照片」的視覺內容、「照片」的視覺類型以及「個人相簿」的視覺源。
該資料集VC 1.5K目前已開源。
資料連結:https://github.com/google/archat/tree/main/dataset
視覺意圖預測模型
為了預測哪些視覺效果可以補充對話,研究人員使用VC1.5K資料集基於大型語言模型訓練了一個視覺意圖預測模型。
在訓練階段,每個視覺意圖解析為「
基於此格式,系統可以處理開放詞彙會話和上下文預測視覺內容、視覺來源和視覺類型。
這種方法在實務上也優於基於關鍵字的方法,因為後者無法處理開放式詞彙的例子,例如用戶可能會說“你的艾米阿姨將在這個星期六來訪”,沒有匹配到關鍵字,也就無法推薦相關的視覺類型或視覺來源。
研究人員使用VC1.5K資料集中的1276個(80%)樣本來微調大型語言模型,其餘319個(20%)範例作為測試數據,並使用token準確率指標來測量微調模型的效能,即模型正確預測的樣本中token正確的百分比。
最終模型可以達到97%的訓練token準確率和87%的驗證token準確率。
實用性研究
為了評估訓練的視覺字幕模型的實用性,研究團隊邀請了89位參與者執行846項任務,要求對效果進行評分,1為非常不同意(strongly disagree)、7為非常同意(strongly agree)。
實驗結果顯示,大多數參與者喜歡在對話中看到視覺效果(Q1),83% 給了5-有些同意(somewhat agree)以上的評價。
此外,參與者認為顯示的視覺效果是有用的且資訊豐富的(Q2),82%給出了高於5分的評價;高品質的(Q3) ,82%給出了高於5分的評價;並與原始語音相關(Q4,84%)。
參與者也發現預測的視覺類型(Q5,87%)和視覺來源(Q6,86%)在相應對話的背景下是準確的。
研究參與者對視覺化預測模型的技術評估結果進行評分
#基於此微調的視覺意圖預測模型,研究人員在ARChat平台上開發了Visual Captions,可以直接在視訊會議平台(如Google Meet)的攝影機串流上新增的互動式小工具。
在系統工作流程中,Video Captions可以自動捕捉使用者的語音、檢索最後的句子、每隔100毫秒將資料輸入到視覺意圖預測模型中、檢索相關視覺效果,然後提供推薦的視覺效果。
#Visual Captions的系統工作流程
# #Visual Captions在推薦視覺效果時提供三個等級的可選主動性:
#自動顯示(高主動性):系統自主搜尋並向所有會議參與者公開顯示視覺效果,無需使用者互動。
按需建議(低主動性):使用者按下空白鍵後,系統才會建議視覺效果。
研究人員在對照實驗室研究(n = 26)和測試階段部署研究(n = 10)中評估了Visual Captions系統,參與者發現,即時視覺效果有幫助於解釋不熟悉的概念、解決語言歧義,並使對話更具吸引力,從而促進了現場對話。
#####################參與者的task load指數和Likert scale評級,包括無VC、以及三個不同主動性的VC###############與會者也報告了在現場進行互動中的不同的系統偏好,即在不同的會議場景中使用不同程度的VC主動性## ####以上是再也不怕「視訊會議」蒙塞住了! GoogleCHI頂會發布新神器Visual Captions:讓圖片做你的字幕助手的詳細內容。更多資訊請關注PHP中文網其他相關文章!

擁抱Face的OlympicCoder-7B:強大的開源代碼推理模型 開發以代碼為中心的語言模型的競賽正在加劇,擁抱面孔與強大的競爭者一起參加了比賽:OlympicCoder-7B,一種產品

你們當中有多少人希望AI可以做更多的事情,而不僅僅是回答問題?我知道我有,最近,我對它的變化感到驚訝。 AI聊天機器人不僅要聊天,還關心創建,研究

隨著智能AI開始融入企業軟件平台和應用程序的各個層面(我們必須強調的是,既有強大的核心工具,也有一些不太可靠的模擬工具),我們需要一套新的基礎設施能力來管理這些智能體。 總部位於德國柏林的流程編排公司Camunda認為,它可以幫助智能AI發揮其應有的作用,並與新的數字工作場所中的準確業務目標和規則保持一致。該公司目前提供智能編排功能,旨在幫助組織建模、部署和管理AI智能體。 從實際的軟件工程角度來看,這意味著什麼? 確定性與非確定性流程的融合 該公司表示,關鍵在於允許用戶(通常是數據科學家、軟件

參加Google Cloud Next '25,我渴望看到Google如何區分其AI產品。 有關代理空間(此處討論)和客戶體驗套件(此處討論)的最新公告很有希望,強調了商業價值

為您的檢索增強發電(RAG)系統選擇最佳的多語言嵌入模型 在當今的相互聯繫的世界中,建立有效的多語言AI系統至關重要。 強大的多語言嵌入模型對於RE至關重要

特斯拉的Austin Robotaxi發射:仔細觀察Musk的主張 埃隆·馬斯克(Elon Musk)最近宣布,特斯拉即將在德克薩斯州奧斯汀推出的Robotaxi發射,最初出於安全原因部署了一支小型10-20輛汽車,並有快速擴張的計劃。 h

人工智能的應用方式可能出乎意料。最初,我們很多人可能認為它主要用於代勞創意和技術任務,例如編寫代碼和創作內容。 然而,哈佛商業評論最近報導的一項調查表明情況並非如此。大多數用戶尋求人工智能的並非是代勞工作,而是支持、組織,甚至是友誼! 報告稱,人工智能應用案例的首位是治療和陪伴。這表明其全天候可用性以及提供匿名、誠實建議和反饋的能力非常有價值。 另一方面,營銷任務(例如撰寫博客、創建社交媒體帖子或廣告文案)在流行用途列表中的排名要低得多。 這是為什麼呢?讓我們看看研究結果及其對我們人類如何繼續將


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3漢化版
中文版,非常好用

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。