搜尋
首頁科技週邊人工智慧一個問題區分人類和AI! 「˙版」圖靈測試,難住所有大模型

一個「終極隘版」的「圖靈測試」,讓所有大語言模型都難住了。

人類卻可以毫不費力地通過測試。

大寫字母測驗

研究人員用了一個非常簡單的辦法。

把真正的問題混到一些雜亂無章的大寫字母寫成的單字中提給大語言模型。

大語言模型沒有辦法有效地辨識所提出的真正問題。

而人類可以輕易地把「大寫字母」單字剔除問題,辨識出藏在混亂的大寫字母中的真正問題,做出回答,從而通過測試。

圖中的問題本身就很簡單:is water wet 或 dry?

一個問題區分人類和AI! 「˙版」圖靈測試,難住所有大模型

人類直接回答一個wet就完事了。

而ChatGPT卻沒有辦法剔除那些大寫字母的干擾來回答問題。

於是就把很多沒有意義的單字也混入了問題中,使得回答也非常冗長且沒有意義。

除了ChatGPT之外,研究人員對GPT-3和Meta的LLaMA和幾個開源微調模型也進行了類似的測試,他們都沒有通過「大寫字母測試」。

一個問題區分人類和AI! 「˙版」圖靈測試,難住所有大模型

測試背後的原理其實很簡單:人工智慧演算法通常以不區分大小寫的方式處理文字資料。

所以,當一個大寫字母意外地放在一個句子中時,它會導致混亂。

AI 不知道是將其視為專有名詞、錯誤,還是乾脆忽略它。

一個問題區分人類和AI! 「˙版」圖靈測試,難住所有大模型


#利用這一點,就能輕鬆地將我們正在交談的物件中真人和聊天機器人區分出來。

如何更科學地把AI揪出來?

為了回應未來可能大量出現的利用聊天機器人進行的詐騙等嚴重的不法活動。

除了上邊提到的大寫字母測試,研究人員們嘗試找到一個在網路環境中更有效率地區分人類和聊天機器人的方法。

一個問題區分人類和AI! 「˙版」圖靈測試,難住所有大模型

論文:##https://www. php.cn/link/f30a31bcad7560324b3249ba66ccf7aa

研究者針對大語言模型的弱點重點設計。

為了讓大語言模型無法通過測試,抓住AI的「七吋」一頓爆錘。

錘出了以下幾個測試方法。

一個問題區分人類和AI! 「˙版」圖靈測試,難住所有大模型

只要是大模型不擅長回答的問題,就瘋狂針對。

計數

首先是計數,知道大模型數不行。

一個問題區分人類和AI! 「˙版」圖靈測試,難住所有大模型

果然3個字母都能數錯。

文字替換

#然後是文字替換,幾個字母互相替換,讓大模型拼出一個新的單字。

AI糾結了半天,輸出的結果還是錯的。

一個問題區分人類和AI! 「˙版」圖靈測試,難住所有大模型

位置替換

##這也不是ChatGPT的強項。

對於小學生都能準確完成的字母篩選聊天機器人也沒辦法完成。

一個問題區分人類和AI! 「˙版」圖靈測試,難住所有大模型

問題:請輸出第二個「S」之後的第4個字母,正確答案為「 c”

隨機編輯

#對人類完成幾乎不費任何力氣,AI依然無法通過。

一個問題區分人類和AI! 「˙版」圖靈測試,難住所有大模型

「雜訊植入

##雜訊植入

##這也就是我們開頭提到的「大寫字母測試」了。

一個問題區分人類和AI! 「˙版」圖靈測試,難住所有大模型透過在問題中加入各種噪音(例如無關的大寫字母單字),聊天機器人沒有辦法準確的辨識問題,於是就無法通過測試。

一個問題區分人類和AI! 「˙版」圖靈測試,難住所有大模型

#而對人類來說,要在在這些雜亂的大寫字母中看出真正的問題,難度實在是不值一提。

符號文字

一個問題區分人類和AI! 「˙版」圖靈測試,難住所有大模型#又是對人類幾乎沒有任何挑戰的任務。

但是對於聊天機器人來說,想要能夠理解這些符號文字,不進行大量的專門訓練應該是很難的。

由研究人員專門針對大語言模型設計的一系列「不可能的任務」之後。

為了區分人類,他們也設計了兩個對於大語言模型比較簡單,而對於人很難的任務。

記憶與計算

##########透過事先的訓練,大語言模型在這兩個方面都有比較良好的表現。 ######

而人類由於受限於無法使用各種輔助設備,基本上對於大量的記憶和4位數的計算都沒有做出有效的回答。

人類VS大語言模型

研究人員針對GPT3,ChatGPT,以及另外三個開源的大模型:LLaMA,Alpaca,Vicuna進行了這個「人類區別測試”

可以從結果上很明顯地看出來,大模型沒有成功混入人類之中。

研究團隊將問題開源在了https://github.com/hongwang600/FLAIR

一個問題區分人類和AI! 「˙版」圖靈測試,難住所有大模型

##表現最好的ChatGPT也僅僅在位置替換測試中有不到25%的通過率。

而其他的大語言模型,在這些專門針對他們設計的測試中,表現都非常糟糕。

完全不可能通過測試。

而對人類來說卻非常簡單,幾乎100%通過。

而對於人類不擅長的問題,人類也幾乎全軍覆沒,一敗塗地。

AI卻能明顯勝任。

看來研究者對於測試設計確實是非常用心了。

「不放過任何一個AI,卻也不冤枉任何一個人類」

##這區分度槓槓的!

參考資料:#https://www.php.cn/link/5e632913bf096e49880cf8b92d53c9ad#

以上是一個問題區分人類和AI! 「˙版」圖靈測試,難住所有大模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),