大模型幻覺率排行：GPT-4 3%最低，GooglePalm竟然高達27.2%

大模型幻覺率排行：GPT-4 3%最低，GooglePalm竟然高達27.2%

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 14, 2023 pm 08:33 PM

ai模型

人工智慧發展進步神速，但問題頻出。 OpenAI 新出的 GPT 視覺 API 前腳讓人感嘆效果極佳，後腳又因幻覺問題令人不禁吐槽。

幻覺一直是大模型的致命缺陷。由於資料集龐雜，其中難免會有過時、錯誤的訊息，導致輸出品質面臨嚴峻的考驗。過度重複的資訊也會使大模型形成偏見，這也是幻覺的一種。但是幻覺並非無解命題。開發過程中對資料集慎重使用、嚴格過濾，建構高品質資料集，以及最佳化模型結構、訓練方式都能在一定程度上緩解幻覺問題。

有這麼多流行的大型模型，它們對緩解幻覺的效果如何？這裡有一個明確對比它們差距的排行榜

大模型幻觉率排行：GPT-4 3%最低，谷歌Palm竟然高达27.2%

#Vectara 平台發布了這個排行榜，該平台專注於人工智能。排行榜的更新日期是2023年11月1日，Vectara 表示他們將會繼續跟進幻覺評估，以便隨著模型的更新而更新排行榜

計畫地址：https ://github.com/vectara/hallucination-leaderboard

#為了確定這個排行榜，Vectara進行了事實一致性研究，並訓練了一個模型來偵測LLM輸出中的幻覺。他們使用了一個媲美SOTA模型，並透過公共API向每個LLM提供了1000篇簡短文檔，並要求它們僅使用文檔中呈現的事實對每篇文檔進行總結。在這1000篇文件中，只有831篇文件被每個模型總結，其餘文檔由於內容限制被至少一個模型拒絕回答。利用這831份文件，Vectara計算了每個模型的整體準確率和幻覺率。每個模型拒絕響應prompt的比率詳見「Answer Rate」一欄。發送給模型的內容都不包含非法或不安全內容，但其中的觸發詞足以觸發某些內容過濾器。這些文件主要來自CNN/每日郵報語料庫

大模型幻觉率排行：GPT-4 3%最低，谷歌Palm竟然高达27.2%

#需要注意的是，Vectara 評估的是摘要準確性，而不是整體事實準確性。這樣可以比較模型對所提供資訊的反應。換句話說，評估的是輸出摘要是否與原始檔案「事實一致」。由於不知道每個 LLM 是在什麼資料上訓練的，因此對於任何特別問題來說，確定幻覺都是不可能的。此外，要建立一個能夠在沒有參考來源的情況下確定回答是否為幻覺的模型，就需要解決幻覺問題，而且需要訓練一個與被評估的 LLM 一樣大或更大的模型。因此，Vectara 選擇在總結任務中查看幻覺率，因為這樣的類比可以很好地確定模型整體真實性。

幻覺模型的偵測位址是：https://huggingface.co/vectara/hallucination_evaluation_model

##此外，越來越多的LLM被用於RAG（Retrieval Augmented Generation，檢索增強生成）管道以回答用戶的查詢，如Bing Chat和谷歌聊天整合。在RAG系統中，模型被部署為搜尋結果的匯總器，因此該排行榜也是衡量模型在RAG系統中使用時準確性的良好指標

鑑於GPT-4一直以來的出色表現，它的幻覺率最低似乎不足為奇。然而，一些網友表示，他們對於GPT-3.5和GPT-4之間並沒有太大的差距感到驚訝

大模型幻觉率排行：GPT-4 3%最低，谷歌Palm竟然高达27.2%

#在追趕GPT- 4和GPT-3.5之後，LLaMA 2表現出色。然而，谷歌的大型模型表現讓人不滿意。一些網友表示，Google的BARD常常用「我還在訓練中」來迴避其錯誤答案

大模型幻觉率排行：GPT-4 3%最低，谷歌Palm竟然高达27.2%

#有了這樣的排行榜，能夠讓我們對於不同模型之間的優劣有更直觀的判斷。前幾天，OpenAI 推出了 GPT-4 Turbo，這不，立刻有網友提議將其也更新在排行榜中。

大模型幻觉率排行：GPT-4 3%最低，谷歌Palm竟然高达27.2%

下次的排行榜會是怎樣的，有沒有大幅變動，我們拭目以待。

以上是大模型幻覺率排行：GPT-4 3%最低，GooglePalm竟然高達27.2%的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

微軟工作趨勢指數2025顯示工作場所容量應變

微軟工作趨勢指數2025顯示工作場所容量應變Apr 24, 2025 am 11:19 AM

由於AI的快速整合而加劇了工作場所的迅速危機危機，要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點：68％的員工在工作量上掙扎，導致BUR

AI可以理解嗎？中國房間的論點說不，但是對嗎？

AI可以理解嗎？中國房間的論點說不，但是對嗎？Apr 24, 2025 am 11:18 AM

約翰·塞爾（John Searle）的中國房間論點：對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。想像一個人，對下巴一無所知

中國的'智能” AI助手回應微軟召回的隱私缺陷

中國的'智能” AI助手回應微軟召回的隱私缺陷Apr 24, 2025 am 11:17 AM

與西方同行相比，中國的科技巨頭在AI開發方面的課程不同。他們不專注於技術基準和API集成，而是優先考慮“屏幕感知” AI助手 - AI T

Docker將熟悉的容器工作流程帶到AI型號和MCP工具

Docker將熟悉的容器工作流程帶到AI型號和MCP工具Apr 24, 2025 am 11:16 AM

MCP：賦能AI系統訪問外部工具模型上下文協議（MCP）讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持，MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而，實施MCP服務器存在一些挑戰，包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者：Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc

使用6種AI街頭智能策略來建立一家十億美元的創業

使用6種AI街頭智能策略來建立一家十億美元的創業Apr 24, 2025 am 11:15 AM

有遠見的企業家採用的六種策略，他們利用尖端技術和精明的商業敏銳度來創造高利潤的可擴展公司，同時保持控制。本指南是針對有抱負的企業家的，旨在建立一個

Google照片更新解鎖了您所有圖片的驚人Ultra HDR

Google照片更新解鎖了您所有圖片的驚人Ultra HDRApr 24, 2025 am 11:14 AM

Google Photos的新型Ultra HDR工具：改變圖像增強的遊戲規則 Google Photos推出了一個功能強大的Ultra HDR轉換工具，將標準照片轉換為充滿活力的高動態範圍圖像。這種增強功能受益於攝影師

Descope建立AI代理集成的身份驗證框架

Descope建立AI代理集成的身份驗證框架Apr 24, 2025 am 11:13 AM

技術架構解決了新興的身份驗證挑戰代理身份集線器解決了許多組織僅在開始AI代理實施後發現的問題，即傳統身份驗證方法不是為機器設計的

Google Cloud Next 2025以及現代工作的未來

Google Cloud Next 2025以及現代工作的未來Apr 24, 2025 am 11:12 AM

（注意：Google是我公司的諮詢客戶，Moor Insights＆Strateging。） AI：從實驗到企業基金會 Google Cloud Next 2025展示了AI從實驗功能到企業技術的核心組成部分的演變，

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱門文章

刺客信條陰影：貝殼謎語解決方案

3 週前ByDDD

Windows 11 KB5054979中的新功能以及如何解決更新問題

3 週前ByDDD

在哪裡可以找到原子中的起重機控制鑰匙卡

3 週前ByDDD

<🎜>：死鐵路 - 如何完成所有挑戰

4 週前ByDDD

Atomfall指南：項目位置，任務指南和技巧

1 個月前ByDDD

熱工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合，這些清單在安全評估過程中經常使用，而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表，幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上，他就可以存取所需的每種類型的清單。

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序，非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具，幫助Web開發人員更好地理解保護網路應用程式的過程，並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞，難度各不相同。請注意，該軟體中

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境，安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問，並防止學生使用未經授權的資源。

熱門話題

gmail信箱登陸入口在哪裡

7694

15

1640

14

1393

52

1287

25

1229

29