首頁  >  文章  >  科技週邊  >  「社交達人」GPT-4!解讀表情、揣測心理全都會

「社交達人」GPT-4!解讀表情、揣測心理全都會

WBOY
WBOY轉載
2023-07-22 20:29:131346瀏覽

想像一下,您正在參加一個充滿活力的雞尾酒會,局間充滿了熱烈的談話聲和玻璃杯碰撞的叮噹聲。

此時,您作為一個悠閒的觀察者,怡然自得地躲在角落。然而,就算沒有處在聚會的中心,您還是可以輕鬆地弄清楚不同人之間的社會關係,了解正在發生的事情,甚至透過閱讀人們的言語和非言語線索來讀懂明里暗裡的社交訊息。

如果一個LLM能夠復現這種程度的社交能力呢?這不,Koko Mind就是這麼東西。

「社交達人」GPT-4!解讀表情、揣測心理全都會

隨便打開一個視頻,模型就開始分析人物表情,得出人物情緒的結論。

然後,在右邊的prompt欄也可以提出問題,讓AI進一步分析影片中暗流湧動的社交謎題。

(說實話對有些人來說這都很難)

「社交達人」GPT-4!解讀表情、揣測心理全都會圖片

  • Koko Mind包含了150個複雜的多方社交互動以及自由文字問題和答案。
    為了確保資料的多樣性和可擴展性,並避免資料污染,所有社交互動、問題和答案均由GPT-4生成,並隨後由人類專家驗證。
  • 分析資料基於三個不同的來源:
  • #GPT-4-only:此子集僅由GPT-4透過提示創建。

基於電影:為了避免資料污染,這部分資料是基於從2022年後上映的電影中提取的各種場景。 GPT-4負責塑造這些場景,在保留核心本質的同時添加了自己的元素。

「社交達人」GPT-4!解讀表情、揣測心理全都會

基於ToMi:該部分包含由模擬資料集ToMi支援的數據,其中涉及將物理物件移動到不同的地方,這是心理理論的經典測試。當然,這些社交互動還得被GPT-4修飾、被擴展一下。

    三種資料來源的佔如下:



  • #對於每次社交互動,研究者都會提出各種問題,旨在探討以下幾個和社交理解息息相關的面向。

  • 心理理論:評估對其他人心理狀態和觀點的理解的問題。

  • 社會規範:旨在辨別情境中的社會價值觀和規範的問題。
情緒辨識:旨在識別和理解上下文中的情緒元素的問題。

社會關係:關注人際動態與關係。

  • 反事實問題:旨在探索替代結果或可能性的假設查詢。
  • 社會建議:提出與特定情況相關的建議或行動建議的問題。
    研究者以text-davinci-003 作為參考,評估了AlpacaEval後的不同模型。
  • 其中,研究人員從上下文中刪除了括號中的非語言線索(例如,緊張地喝咖啡等)。

以下則是一些有趣的要點:

#在兩個模型中,與Claude相比,GPT-4在識別獲勝模型方面表現出更大的確定性和信心。

##################當上下文沒有非語言線索,且互動要麼完全由GPT-4生成,要麼基於電影時,Claude的表現優於GPT- 4。 #####################而如果上下文包含了非語言線索,那麼GPT-4總是比Claude更好。 ###############(一個可能的解釋是,GPT-4是一種多模態模型可以更好地理解額外的非語言資訊。)###### #######在部落格中,研究人員繪製了表格,可以清楚的看到各個模型的表現。 ######

「社交達人」GPT-4!解讀表情、揣測心理全都會圖片

結果雖然在很多方面都令人興奮,但也有一定的限制。首先, Koko Mind的規模相對較小,這可能會限制研究人員結論的廣泛適用性和全面性。

其次, Koko Mind中的所有互動都是由GPT-4產生的,需要手動驗證,這使得資料集難以擴展。

另外,雖然Koko Mind在資料集中提供了經過人工驗證的答案,研究人員在評估時沒有使用這些答案作為參考,並且由於這些答案是由GPT-4生成的,因此它們可能偏向GPT-4。

未來的研究可以集中在如何評估模型上具有經過人工驗證的機器生成的參考答案。

當然,雖說有這樣或那樣的限制,研究人員仍將Koko Mind視為未來與社會智慧、多模態語言模型等相關的研究的跳板。

以上是「社交達人」GPT-4!解讀表情、揣測心理全都會的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除