一個「終極隘版」的「圖靈測試」,讓所有大語言模型都難住了。
人類卻可以毫不費力地通過測試。
大寫字母測驗
研究人員用了一個非常簡單的辦法。
把真正的問題混到一些雜亂無章的大寫字母寫成的單字中提給大語言模型。
大語言模型沒有辦法有效地辨識所提出的真正問題。
而人類可以輕易地把「大寫字母」單字剔除問題,辨識出藏在混亂的大寫字母中的真正問題,做出回答,從而通過測試。
圖中的問題本身就很簡單:is water wet 或 dry?
人類直接回答一個wet就完事了。
而ChatGPT卻沒有辦法剔除那些大寫字母的干擾來回答問題。
於是就把很多沒有意義的單字也混入了問題中,使得回答也非常冗長且沒有意義。
除了ChatGPT之外,研究人員對GPT-3和Meta的LLaMA和幾個開源微調模型也進行了類似的測試,他們都沒有通過「大寫字母測試」。
測試背後的原理其實很簡單:人工智慧演算法通常以不區分大小寫的方式處理文字資料。
所以,當一個大寫字母意外地放在一個句子中時,它會導致混亂。
AI 不知道是將其視為專有名詞、錯誤,還是乾脆忽略它。
#利用這一點,就能輕鬆地將我們正在交談的物件中真人和聊天機器人區分出來。
如何更科學地把AI揪出來?
為了回應未來可能大量出現的利用聊天機器人進行的詐騙等嚴重的不法活動。
除了上邊提到的大寫字母測試,研究人員們嘗試找到一個在網路環境中更有效率地區分人類和聊天機器人的方法。
論文:##https://www. php.cn/link/f30a31bcad7560324b3249ba66ccf7aa
研究者針對大語言模型的弱點重點設計。
為了讓大語言模型無法通過測試,抓住AI的「七吋」一頓爆錘。
錘出了以下幾個測試方法。
只要是大模型不擅長回答的問題,就瘋狂針對。
計數
首先是計數,知道大模型數不行。
果然3個字母都能數錯。
文字替換
#然後是文字替換,幾個字母互相替換,讓大模型拼出一個新的單字。
AI糾結了半天,輸出的結果還是錯的。
位置替換
##這也不是ChatGPT的強項。
對於小學生都能準確完成的字母篩選聊天機器人也沒辦法完成。
問題:請輸出第二個「S」之後的第4個字母,正確答案為「 c”
隨機編輯
#對人類完成幾乎不費任何力氣,AI依然無法通過。
「雜訊植入
##雜訊植入
##這也就是我們開頭提到的「大寫字母測試」了。
透過在問題中加入各種噪音(例如無關的大寫字母單字),聊天機器人沒有辦法準確的辨識問題,於是就無法通過測試。
#而對人類來說,要在在這些雜亂的大寫字母中看出真正的問題,難度實在是不值一提。
符號文字
#又是對人類幾乎沒有任何挑戰的任務。
但是對於聊天機器人來說,想要能夠理解這些符號文字,不進行大量的專門訓練應該是很難的。
由研究人員專門針對大語言模型設計的一系列「不可能的任務」之後。
為了區分人類,他們也設計了兩個對於大語言模型比較簡單,而對於人很難的任務。
記憶與計算
##########透過事先的訓練,大語言模型在這兩個方面都有比較良好的表現。 ######而人類由於受限於無法使用各種輔助設備,基本上對於大量的記憶和4位數的計算都沒有做出有效的回答。
人類VS大語言模型
研究人員針對GPT3,ChatGPT,以及另外三個開源的大模型:LLaMA,Alpaca,Vicuna進行了這個「人類區別測試”
可以從結果上很明顯地看出來,大模型沒有成功混入人類之中。
研究團隊將問題開源在了https://github.com/hongwang600/FLAIR
##表現最好的ChatGPT也僅僅在位置替換測試中有不到25%的通過率。
而其他的大語言模型,在這些專門針對他們設計的測試中,表現都非常糟糕。
完全不可能通過測試。
而對人類來說卻非常簡單,幾乎100%通過。
而對於人類不擅長的問題,人類也幾乎全軍覆沒,一敗塗地。
AI卻能明顯勝任。
看來研究者對於測試設計確實是非常用心了。
「不放過任何一個AI,卻也不冤枉任何一個人類」
##這區分度槓槓的!
參考資料:#https://www.php.cn/link/5e632913bf096e49880cf8b92d53c9ad#
以上是一個問題區分人類和AI! 「˙版」圖靈測試,難住所有大模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

Dreamweaver CS6
視覺化網頁開發工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),