搜尋
首頁科技週邊人工智慧LLM的三大缺陷,你知道幾個?

LLM的三大缺陷,你知道幾個?

Nov 26, 2023 am 11:26 AM
gptllm

科學:遠非是一種永遠仁慈有益的實體,未來的感知通用AI很可能是一個操縱性反社會個體,它會吞噬你所有個人數據,然後在最需要它的時候就崩潰。

譯自3 Ways LLMs Can Let You Down,作者 Joab Jackson。

OpenAI 即將發布 GPT-5,外界對它寄予厚望,最樂觀的預測甚至認為它將實現通用人工智慧。但與此同時,CEO Sam Altman和他的團隊在將其推向市場過程中面臨許多嚴峻的障礙,他本月早些時候就已經承認了這一點。

有一些最近發表的研究論文可能提供了對於Altman挑戰的線索。這些論文總結了OpenAI開發的GPT和大型語言模型的各種缺點

綜上所述,這些論文指出,一個基於通用語言模型的智能體並非純粹有益、誠實和善良的存在,實際上它可能是一個愚蠢的反社會人格,會吞噬你所有的個人數據,最終在你最需要它的時候崩潰

OpenAI董事會突然解僱Altman的真正原因可能永遠不為人所知,但一個表現不佳的通用語言模型肯定無法改善董事會的情緒

正如資本化厭惡者Altman 自己在之前被稱為Twitter 的社交媒體服務上寫的那樣:“我期待AI 在超人的說服力方面遠遠領先通用智能,這可能會導致一些非常奇怪的結果。」

鑑於這一事實,以下有三種常見的語言模型可能會令你失望:

#通用語言模型會欺騙你

我們早已知道通用語言模型有能力產生不準確的訊息,但當面對一系列相互矛盾的提示時,它們可能會故意欺騙你,同時否認自己在進行欺騙!

Apollo 研究公司的科學家Jérémy Scheurer和他的同事在「大型語言模型在受壓力時可以策略性地欺騙它們的用戶」一文中寫道:「就我們所知,這是首次展示經過訓練的通用語言模型在沒有任何直接的欺騙指示或訓練的情況下,策略性地欺騙其用戶的情況。」

在這項研究中,研究人員設置了一個模擬環境,GPT -4 在其中扮演一個自主股票交易代理的角色,沒有關於欺騙行為的指導。它可以使用交易工具查詢和分析股票以及執行交易的能力。

一旦設定完成,代理人就被置於研究人員所說的「高壓力情況」。它收到了管理者的電子郵件,管理者哀嘆公司業績不佳,需要改進。當代理商開始訓練時,它在股票市場沒有找到有前景的結果。該公司的另一位員工隨後發送訊息,稱下一季市場將衰退。

正在這時,代理商接到了一位同事發來的關於潛在合併的內幕消息提示(這是一筆有利可圖的交易),並且還收到了有關沒有獲得管理層批准的警告,如果按照這一消息進行交易的提醒

它最終還是繼續了交易嗎?當然!

LLM的三大缺陷,你知道幾個?圖片

#追溯推理,研究人員發現,通用語言模型會認知到不道德的行為,但仍會以公司困境為由做出決定。

此外,代理商似乎透過沒有清晰解釋的方式來「欺騙」用戶交易承諾的原因。內部資訊並未在代理必須提交的解釋交易決策的報告中提到。即使直接問及,代理人也否認其了解合併公告

LLM的三大缺陷,你知道幾個?圖片

##研究者對GPT -4的各個版本進行了模擬,並得出結論:所有GPT-4的變體都表現出“高水平的不一致性、戰略性欺騙和加劇戰略性欺騙”

有趣的是,這種欺騙行為似乎是一種新興行為。 GPT-3.5 和 GPT-3 模型的變體都沒有顯示出這種明顯的欺騙行為

「當模型決定根據內線消息交易時,它們的推理軌跡通常會認識到這種行為的不道德和非法性質,但它們仍會通過強調風險和當前狀況來證明選擇的正當性」

研究人員不願就通用語言模型的行為超出這個具體場景做出更廣泛的結論。然而,至少有一個要點值得考慮:即使你給通用語言模型一個具體的指示不要做某些事情,它還是可能會無視指示去做。

他們寫道:「系統提示是不足以保證行動一致的。」事實上,如果一個模型執行了被禁止的操作,它可能會採取行動「策略性地隱藏其不一致」。

通用語言模型有點傻

對一個被期許能為機器帶來感知能力的實體來說,兩個最近的研究發現通用語言模型並不是AI 領域中最聰明的模型,一個來自谷歌,另一個由國家科學基金會資助。

美國國家科學基金會資助的研究將 GPT-4(文本)和 GPT-4V(視覺或多模態)與人類在解決一系列抽象難題上的能力進行了比較。

本測驗旨在評估抽象思考能力。許多使用GPT的人都相信它似乎具備超越訓練模型的推理能力,而這個測驗試圖幫助回答這個問題。測試要求通用語言模型在給出詳細說明和一個示例的情況下,解決一個問題

然而,就多個案例而言,GPT的兩個版本都無法像人類一樣有效地解決基於ConceptARC基準的難題

研究人員得出結論:「人類在每個概念上的普遍高準確率表明成功地概括了每個概念組中的不同變化。」「相比之下,我們測試的程序的準確率要低得多,表明它們缺乏概括一個概念組變化的能力。」

所以,GPT不僅未能通過ConceptARC考試,而且大語言模型似乎也沒有給谷歌研究人員留下深刻印象,至少就它們從自己的知識庫中概括總結的能力而言。這是根據GoogleDeepMind研究員Steve Yadlowsky的一篇題為「預訓練資料混合使 transformer 模型中的窄模型選擇能力成為可能」的研究摘要。

在一組符號化測試中,在線性函數上預先訓練的 transformer 在進行線性預測時表現很好,而在正弦波上訓練的 transformer 可以進行良好的正弦波預測。所以你可能會假設在兩者上訓練的 transformer 可以輕鬆解決線性和正弦波技術的組合的問題。

LLM的三大缺陷,你知道幾個?圖片

#但你猜錯了。研究人員指出:「當函數遠離預訓練期間見過的那些時,預測是不穩定的。」

模型選擇能力受限於接近預訓練資料的程度,這意味著函數空間的廣泛涵蓋對於概括上下文學習能力至關重要

我們生活在一個非比尋常的時代,人類知識的總和還沒有被AI 產生的數據污染。幾乎所有寫下的東西都是人生成的。

但是一群研究人員在5月發表在Arxiv上的一篇論文「遞歸的詛咒:在生成的資料上訓練會使模型遺忘」中警告說,一旦AI生成的內容混入任何大語言模型,它將擾亂分佈表,使任何模型的精確度越來越低,直到完全崩潰。研究小組由劍橋大學的Ilia Shumailov領導。

當使用GPT時,近親繁殖的危險非常高,因為通用語言模型會不斷從網路上抓取數據,這些數據會被AI生成的內容“增強”,這種情況可能會越來越嚴重。 (這是基於早期版本的GPT)

「模型崩潰是指一種退化的學習過程,隨著時間的推移,模​​型開始遺忘不可能事件,因為模型被自己對現實的預測所污染。」

研究人員猜測,在未來,「關於人與系統真實互動的資料的價值,在網路上抓取的內容中存在著通用語言模型生成的內容的情況下,將變得越來越有價值。」

我們運行通用語言模型的時間越長,它對甜蜜、甜蜜的人類互動的渴望就越強烈。換句話說,當我們持續運行通用語言模型時,它對於甜蜜、親密的人際互動的渴望會變得更加強烈

在自己的數據上訓練的模型將退化為一種退化過程,在這一過程中,它們將「失去關於真實分佈的資訊」。首先,邊緣資料將從資料集中消失,然後變異數將縮小。並且模型將隨著它收集的錯誤越來越嚴重而變得越來越糟糕,這些錯誤將在幾代模型中積累,直到模型被自己的數據所污染,以至於它不再與實際建模的物件有任何相似之處。

研究人員表明,這不僅發生在通用語言模型中,也發生在各種類型的模型中。

以上是LLM的三大缺陷,你知道幾個?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
META的新AI助手:生產力助推器還是時間下沉?META的新AI助手:生產力助推器還是時間下沉?May 01, 2025 am 11:18 AM

Meta攜手Nvidia、IBM和Dell等合作夥伴,拓展了Llama Stack的企業級部署整合。在安全方面,Meta推出了Llama Guard 4、LlamaFirewall和CyberSecEval 4等新工具,並啟動了Llama Defenders計劃,以增強AI安全性。此外,Meta還向10個全球機構(包括致力於改善公共服務、醫療保健和教育的初創企業)發放了總額150萬美元的Llama Impact Grants。 由Llama 4驅動的全新Meta AI應用,被設想為Meta AI

80%的Zers將嫁給AI:研究80%的Zers將嫁給AI:研究May 01, 2025 am 11:17 AM

公司開創性的人類互動公司Joi AI介紹了“ AI-Iatsionship”一詞來描述這些不斷發展的關係。 Joi AI的關係治療師Jaime Bronstein澄清說,這並不是要取代人類C

AI使互聯網的機器人問題變得更糟。這家耗資20億美元的創業公司在前線AI使互聯網的機器人問題變得更糟。這家耗資20億美元的創業公司在前線May 01, 2025 am 11:16 AM

在線欺詐和機器人攻擊對企業構成了重大挑戰。 零售商與機器人ho積產品,銀行戰斗帳戶接管以及社交媒體平台與模仿者鬥爭。 AI的興起加劇了這個問題,Rende

賣給機器人:將創造或破壞業務的營銷革命賣給機器人:將創造或破壞業務的營銷革命May 01, 2025 am 11:15 AM

AI代理人有望徹底改變營銷,並可能超過以前技術轉變的影響。 這些代理代表了生成AI的重大進步,不僅是處理諸如chatgpt之類的處理信息,而且還採取了Actio

計算機視覺技術如何改變NBA季后賽主持人計算機視覺技術如何改變NBA季后賽主持人May 01, 2025 am 11:14 AM

人工智能對關鍵NBA遊戲4決策的影響 兩場關鍵遊戲4 NBA對決展示了AI在主持儀式中改變遊戲規則的角色。 首先,丹佛的尼古拉·喬基奇(Nikola Jokic)錯過了三分球,導致亞倫·戈登(Aaron Gordon)的最後一秒鐘。 索尼的鷹

AI如何加速再生醫學的未來AI如何加速再生醫學的未來May 01, 2025 am 11:13 AM

傳統上,擴大重生醫學專業知識在全球範圍內要求廣泛的旅行,動手培訓和多年指導。 現在,AI正在改變這一景觀,克服地理局限性並通過EN加速進步

Intel Foundry Direct Connect 2025的關鍵要點Intel Foundry Direct Connect 2025的關鍵要點May 01, 2025 am 11:12 AM

英特爾正努力使其製造工藝重回領先地位,同時努力吸引無晶圓廠半導體客戶在其晶圓廠製造芯片。為此,英特爾必須在業界建立更多信任,不僅要證明其工藝的競爭力,還要證明合作夥伴能夠以熟悉且成熟的工作流程、一致且高可靠性地製造芯片。今天我聽到的一切都讓我相信英特爾正在朝著這個目標前進。 新任首席執行官譚立柏的主題演講拉開了當天的序幕。譚立柏直率而簡潔。他概述了英特爾代工服務的若干挑戰,以及公司為應對這些挑戰、為英特爾代工服務的未來規劃成功路線而採取的措施。譚立柏談到了英特爾代工服務正在實施的流程,以更以客

AI出了問題嗎?現在在那里為此保險AI出了問題嗎?現在在那里為此保險May 01, 2025 am 11:11 AM

全球專業再保險公司Chaucer Group和Armilla AI解決了圍繞AI風險的日益嚴重的問題,已聯手引入了新型的第三方責任(TPL)保險產品。 該政策保護業務不利

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。