首頁  >  文章  >  科技週邊  >  GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

WBOY
WBOY原創
2024-06-10 12:32:271087瀏覽

GPT-4可以通過圖靈測試嗎?

當一個足以強大的模型誕生之後,人們往往會用圖靈測試來衡量這LLM的智慧程度。

最近,來自UCSD的認知科學系研究人員發現:

#在圖靈測試中,人們根本無法區分GPT-4與人類!

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

#論文網址:https://arxiv.org/pdf/2405.08007

在圖靈測試中,GPT-4有54%的情況下,被判定為人類。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

實驗結果更是表明,這是首次有系統在「互動式」雙人圖靈測試中,並被實證通過測試。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

研究者Cameron R.Jones招募了500名志願者,他們被分成5個角色:4個評估員,分別是GPT -4、GPT-3.5、ELIZA和人類,另一個角色就「扮演」人類自己,藏在螢幕另一端,等待評估員的發現。

以下是節錄的遊戲,你能看出哪個對話框是人類嗎?

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

圖1:人類審問者(綠色)與證人(灰色)之間的部分對話

#其實,這四段對話中,有一段是與人類證人的對話,其餘都是與人工智慧的對話。

第一次開啟受控「圖靈測試」

#過去74年裡,人們進行了​​許多圖靈測試的嘗試,但很少進行過受控實驗。

著名的Loebner獎是一項年度競賽,然而從1990年首次舉辦一直到2020年,沒有一個系統通過測試。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

最近的一項大規模研究發現,人類在2分鐘的線上對話中,識別一系列LLM準確率達到 60%。

迄今為止,還沒有任何機器通過測試的「受控」實驗演示。

為了測試人們是否有可能識破當前AI系統的欺騙行為,研究人員使用GPT-4進行了一次隨機控制的雙人圖靈測試。

測試要求很簡單,就是人類參與者與人類、人工智慧開啟5分鐘對話,並判斷對話者是否是人類。

如同開頭所述,研究者一共評估了3個模型-GPT-4、GPT-3.5,以及ELIZA。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

針對前兩個LLM, 研究者透過改編GPT-4和GPT-3.5探索性研究中表現最佳的提示,來指示大模型如何去回應訊息。

研究人員稱,解釋圖靈測試的一個核心挑戰是,系統表現出色可能源自於兩個原因:

- 一是出色地模仿人類

- 二是評判者過於輕信

後一種情況,常被稱為ELIZA效應,即參與者甚至會將簡單的系統也人性化。

ELIZA系統對每個人來說,再熟悉不過了。

它是20世紀60年代的一款基於規則的簡單聊天機器人,但用戶發現自己也會將人類特徵歸因於它。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

因此,在實驗中,研究人員將ELIZA作為基線,一方面是為了從經驗上量化ELIZA效應,另一方面也是為了在實驗中進行操作檢查。

那麼,這項圖靈測試的結果,具體如何呢?

GPT-4通過率54%

#首先看一個重要的指標:通過率。

研究者將通過率定義為在遊戲中,評估物件被評估者判定為人類的比例。

GPT-4的通過率為54%,超過了GPT-3.5(50%)和ELIZA基線(22%),但低於人類受試者(67%) 。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

評估物件通過率(左)和評估者信任度(右)。右圖每個點代表一場遊戲

這個結果其實並不令人意外,與研究初始階段的設想基本相符合。

在試驗之前,研究者就做了幾個假設:首先,假設人類在偵測GPT-4方面的能力不會超過偶然性(50%)。

為了驗證這一點,研究者擬合了一個邏輯迴歸模型來預測只有截距的通過率。

截距與0(z=0.14, p=0.482)沒有明顯差距,這顯示GPT-4的通過率可以約等於50%。貝葉斯模型預測GPT-4截距的95%可信區間為-0.24-0.55(相當於44%-63%的通過率)。

這意味著,人類在面對GPT-4時,成功分辨的機率跟拋硬幣差不多!

結果也證實了研究者的第二和第三個假設:人類的通過率明顯高於GPT-4的通過率(z=2.42,p=0.017),而GPT-4的通過率高於ELIZA的通過率(z=4.11,p

然而,與研究者的試驗設想不一致的是:GPT-4和GPT-3.5的表現幾乎差不多(z=0.497,p=0.619)。

在「偽裝人類」這一塊,打了平手。

同樣出乎意料的是,那些自稱更了解LLM運作方式的參與者並沒有更成功地辨識出LLM(z = -0.023,p = 0.869)。

在探索性分析中,研究者發現年齡對詢問者的準確度有負面影響(z = -2.24,p = 0.025),但其他人口統計變數(包括性別、教育程度和與聊天機器人互動的頻率)則沒有顯著影響。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

為什麼會是這樣的結果?讓我們來分析一下背後的原因。

為了深入了解到底是什麼在影響評估者的決策,我們對評估者所使用的策略和他們為決策提供的理由進行了分類。

36%的評估者會與評估對象閒聊,詢問一些個人細節或日常活動。

第二類和第三類最常使用的策略是社交與情緒(25%)-例如,詢問評估對象的觀點和經歷,觀察他們是否具備幽默感。

也有人著重檢視知識與推理(13%),包括有關數學、邏輯和常識的問題。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

詢問策略(左)和平均準確率(右)

為了比較每個策略的有效性,研究者計算了使用這些策略的平均準確率。

當評估對象問及對方有關人類經驗(75%)、邏輯和數學(78%)或直接「指控」對方是人工智慧(80%)時,通常會距離“正確答案”更近。

在遊戲中,人工智慧之所以會「露出馬腳」,通常是因為評估者認為他們似乎在強迫自己扮演角色,要么過於隨意,要么則缺乏個性。

而ELIZA 很容易「暴露」,主要是因為反應不自然和缺乏語境意識。

可以看出,無論是從參與遊戲的志工所使用的策略或決策理由來看,他們都更注重語言風格和社會情感因素,而不是更傳統的智力範疇(知識與推理)。

這似乎反映出志工們的一個潛在假設-社會智能才是AI最無法模仿的人類特徵。

圖靈測試,過了

如何判斷系統何時通過了圖靈測試?

圖靈在1950年的論文中預測,到本世紀末, AI系統將能夠很好地玩模仿遊戲,以至於審查員在5分鐘的交流後,做出正確識別的機會不會超過70%。

這個結論,導致了AI的通過率是否能夠達到30%,成為許多研究者的討論目標。

然而,這個基準似乎是任意的,並且不清楚圖靈是否將其作為成功的定義。

其實,50%的基準比較合理,因為它更能證明人類審查者,在辨識AI方面並不比偶然性更強。

這個定義,與發現使用者是否可以在線上互動中,可靠地識別其他人類這一目標尤其相關。

在研究者的預先公開的分析中,透過使用ELIZA基準作為操作檢查來解決這個問題。

只有當分析顯示ELIZA的通過率低於機率,而GPT-4的通過率不低於機率的情況下,才能判定模型通過了測試。

而根據這個定義,GPT-4顯然通過了這個版本的圖靈測試。

此外,參與者的置信度分數和決策依據,都顯示他們並非隨意猜測:GPT-4是人類的平均置信度為73%(見圖 2)。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

網友討論

有網友表示,如果我們要將圖靈測驗等同於智力,圖靈測試就不是一個好的測試。然而,AI幾乎始終可以「欺騙」人類的事實有點令人擔憂。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

還有人稱,自己對這種測試表示懷疑。因為GPT-4的表現會超過大多數人,所以很容易區分誰是人類,誰是人工智慧。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

研究者對此表示,這確實是我們遇到的問題。例如,GPT-4的知識儲備「太豐富」或掌握的語言太多。我們明確提示該模型避免這種情況,這在一定程度上是有效的。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

以上是GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn