搜尋
首頁科技週邊人工智慧移除ImageNet標籤錯誤,模型排名發生大幅變化

先前,ImageNet 因為標籤錯誤的問題而成為熱門話題,這個數字說出來你可能會大吃一驚,至少有十萬個標籤是存在問題的。那些基於錯誤標籤所做的研究,很可能要推翻重來一遍。

由此看來管理資料集品質還是很重要的。

很多人會使用 ImageNet 資料集作為 benchmark,不過基於 ImageNet 預訓練的模型,最終結果可能會因為資料品質而改變。

本文中,來自Adansons 公司的工程師Kenichi Higuchi 對《 Are we done with ImageNet? 》一文中的ImageNet 資料集進行重新研究,在移除錯誤標籤資料後,重新評估torchvision 上發布的模型。

從 ImageNet 中刪除錯誤資料並重新評估模型

本文將 ImageNet 中的標籤錯誤分為三類,如下所示。

(1) 標註錯誤的資料 

(2) 對應多個標籤的資料 

(3) 不屬於任何標籤的資料

移除ImageNet標籤錯誤,模型排名發生大幅變化

總結來看,錯誤資料大約有14,000 多個,考慮評估資料的數量為50000,可以看出錯誤資料佔比極高。下圖是一些有代表性的錯誤數據。

移除ImageNet標籤錯誤,模型排名發生大幅變化

方法

在不重新訓練模型的情況下,該研究透過只排除標註錯誤的數據,也就是上述(1)類錯誤數據,以及從評估數據中排除所有錯誤數據,也就是(1)-(3) 錯誤數據,來重新檢查模型的準確率。

為了刪除錯誤數據,需要使用一個描述標籤錯誤訊息的元資料檔案。在這個元資料檔案中,如果包含 (1)-(3) 類別錯誤,則資訊將在「correction」屬性中描述。

移除ImageNet標籤錯誤,模型排名發生大幅變化

該研究使用名為 Adansons Base 的工具,Adansons Base 透過將資料集連結到元資料來過濾資料。這裡測試了 10 個模型,如下所示。

移除ImageNet標籤錯誤,模型排名發生大幅變化

10 個測試的影像分類模型

#結果如下表所示(數值是以% 為單位的精確度,括號中的數字是排名)

移除ImageNet標籤錯誤,模型排名發生大幅變化

10 個分類模型的結果

以All Eval 資料為基線,排除錯誤資料類型(1),準確率平均提高3.122 分;排除所有錯誤資料(1)~(3) ,準確率平均提高11.743 分。

和預想的一樣,排除錯誤數據,準確率全面提高,這一點毫無疑問,因為與乾淨數據相比,存在錯誤數據很容易出錯。

當在不排除錯誤資料的情況下進行評估,以及錯誤資料(1)~(3) 都被排除時,模型的準確率排名發生了變化。

本文中,錯誤資料 (1) 有 3670 個,佔全部 50000 條資料的 7.34%,移除後準確率平均提高了 3.22 點左右。當錯誤移除資料後,資料規模發生了變化,單純的比較準確率可能存在偏差。

結論

儘管並未特別強調,但是在做評估訓練時,使用準確標記的資料很重要。

在比較模型之間的準確率時,先前的研究可能會得出錯誤的結論。所以應該先對數據進行評估,但這真的可以用來評估模型的表現嗎?

許多使用深度學習的模型往往不屑於對數據進行反思,而是渴望透過模型的表現表現來提高準確性和其他評估指標,即使是評價數據中包含錯誤數據,也沒進行準確的處理。

當建立自有的資料集時,例如在業務中應用 AI 時,創建高品質的資料集直接關係到提高 AI 的準確率和可靠性。本文的實驗結果表明,僅僅提高資料品質就可以將準確率提高約 10 個百分點,這表明在開發 AI 系統時不僅要改進模型,還要改善資料集。

然而,保證資料集的品質並不容易。雖然增加元資料的數量以正確評估 AI 模型和資料的品質很重要,但管理起來可能很麻煩,尤其是對於非結構化資料。

以上是移除ImageNet標籤錯誤,模型排名發生大幅變化的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介紹 假設有一個農民每天在幾週內觀察農作物的進展。他研究了增長率,並開始思考他的植物在幾週內可以生長的高度。從Th

軟AI的興起及其對當今企業的意義軟AI的興起及其對當今企業的意義Apr 15, 2025 am 11:36 AM

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

為AI前沿的不斷發展的安全框架為AI前沿的不斷發展的安全框架Apr 15, 2025 am 11:34 AM

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

生成AI的3種方法放大了企業家:當心平均值!生成AI的3種方法放大了企業家:當心平均值!Apr 15, 2025 am 11:33 AM

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

Andrew Ng的新簡短課程Andrew Ng的新簡短課程Apr 15, 2025 am 11:32 AM

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大語言模型(LLM)中的幻覺是不可避免的嗎?大語言模型(LLM)中的幻覺是不可避免的嗎?Apr 15, 2025 am 11:31 AM

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

60%的問題 -  AI搜索如何消耗您的流量60%的問題 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。