搜尋
首頁科技週邊人工智慧ChatGPT要把數據標註產業幹掉了?比人便宜20倍,而且還準

沒想到,AI 進化之後淘汰掉的第一批人,就是幫 AI 訓練的人。

許多 NLP 應用程式需要為各種任務手動進行大量資料註釋,特別是訓練分類器或評估無監督模型的效能。根據規模和複雜程度,這些任務可能由眾包工作者在 MTurk 等平台上以及訓練有素的標註人(如研究助理)執行。

我們知道,語言大模型(LLM)在規模到達一定程度之後可以「湧現」— 即獲得先前無法預料的新能力。作為推動 AI 新一輪爆發的大模型,ChatGPT 在許多任務上的能力也超出了人們的預期,其中就包括為資料集做標註這種自己訓練自己的工作。

近日,來自蘇黎世大學的研究者證明了ChatGPT 在多項註釋任務(包括相關性、立場、主題和框架檢測)上優於眾包工作平台和人類工作助理。

此外,研究人員也做了計算:ChatGPT 的每條註釋成本不到 0.003 美元 —— 大約比 MTurk 便宜 20 倍。這些結果顯示了大型語言模型在大幅提高文字分類效率的潛力。

ChatGPT要把數據標註產業幹掉了?比人便宜20倍,而且還準

論文連結:https://arxiv.org/abs/2303.15056

#研究細節

許多NLP 應用程式需要高品質的標註數據,特別是用於訓練分類器或評估無監督模型的性能。例如,研究人員有時需要過濾吵雜的社群媒體資料以獲得相關性,將文字分配給不同的主題或概念類別,或衡量他們的情緒立場。無論用於這些任務的具體方法是什麼(監督、半監督或無監督學習),都需要準確地標註資料來建立訓練集,或用其作為評估表現的黃金標準。

對此,人們通常的處理方式是招募研究助理,或是使用 MTurk 這樣的群眾外包平台。 OpenAI 在打造 ChatGPT 時,也將負面內容問題分包給了肯亞的資料標註機構,進行了大量標註訓練才敢正式上線。

由瑞士蘇黎世大學提交的這篇報告探討了大語言模型(LLM)在文本標註任務中的潛力,並重點關注了 2022 年 11 月發布的 ChatGPT。它證明了零樣本(即沒有任何額外訓練)ChatGPT 在分類任務上優於 MTurk 標註 ,而成本僅需人工的幾十分之一。

研究人員使用了先前的研究收集的 2382 個推文樣本。這些推文由訓練有素的註釋者(研究助理)標記為五種不同的任務:相關性、立場、主題和兩種框架檢測。實驗中,研究者將任務作為零樣本分類提交給ChatGPT,並同時給MTurk 上的眾包工作者,然後根據兩個基準評估了ChatGPT 的性能:相對於眾包平台上人類工作者的準確性,以及相對於研究助理註釋者的準確性。

結果發現,在五分之四的任務上,ChatGPT 的零樣本準確率高於 MTurk。對於所有任務,ChatGPT 的編碼器協議都超過了 MTurk 和訓練有素的註釋者。此外在成本上,ChatGPT 比 MTurk 便宜得多:五個分類任務在 ChatGPT(25264 個註釋)上的成本約為 68 美元,在 MTurk(12632 個註釋)上的成本約為 657 美元。

這麼一算,ChatGPT 的每個註解成本約為 0.003 美元,即三分之一美分 —— 比 MTurk 便宜約 20 倍,而且品質更高。有鑑於此,我們現在已有可能對更多樣本進行註釋,或為監督學習建立大型訓練集。根據現有的測試,10 萬個註釋的成本約為 300 美元。

研究人員表示,雖然需要進一步研究以更好地了解ChatGPT 和其他LLM 如何在更廣泛的環境中發揮作用,但這些結果表明它們有可能改變研究人員進行資料註釋的方式,並破壞MTurk 等平台的部分商業模式。

實驗過程

研究人員使用了包含 2382 條推文的資料集,這些推文是先前針對內容審核相關任務的研究手動註釋的。具體來說,訓練有素的註釋者(研究助理)為五個具有不同類別數量的概念類別構建了黃金標準:推文與內容審核問題的相關性(相關/ 不相關);關於第230 條(美國1996 年《通訊規範法》的一部分)的立場,這是美國網路立法的關鍵部分;主題識別(六類);第一組框架(內容審核作為問題、解決方案或中性);以及第二組框架(十四類)。

然後,研究人員使用 ChatGPT 和在 MTurk 上招募的眾包工作者進行了這些完全相同的分類。對於 ChatGPT 進行了四組標註。為了探索控制輸出隨機程度的 ChatGPT 溫度參數的影響,這裡使用預設值 1 和 0.2 進行註釋,這意味著隨機性較小。對於每個溫度值,研究人員進行了兩組註釋來計算 ChatGPT 的編碼器協議。

對於專家,該研究找到了兩名政治學研究生,對所有五項任務對推文進行註釋。對於每項任務,編碼員都獲得了相同指令集,其被要求逐個任務獨立地註釋推文。為了計算 ChatGPT 和 MTurk 的準確性,對比只考慮了兩個訓練有素的註釋者都同意的推文。

對於MTurk,研究的目標是選擇最好的工作者群體,特別是透過篩選被亞馬遜歸類為「MTurk 大師」、好評超過90% 且在美國的工作者。

研究使用「gpt-3.5-turbo」版本的 ChatGPT API 對推文進行分類。註記於 2023 年 3 月 9 日至 3 月 20 日之間進行。對於每個註釋任務,研究人員有意避免添加任何特定於 ChatGPT 的提示(prompt),例如「讓我們逐步思考」,以確保 ChatGPT 和 MTurk 眾包工作者之間的可比性。

在測試了幾種變體之後,人們決定使用這樣的提示將推文一條一條地提供給ChatGPT:「這是我選擇的推文,請將其標記為[任務特定說明(例如,說明中的主題之一)]。此外,該研究中每條推文收集了四個ChatGPT 回應,也為每條推文創建一個新的聊天會話,以確保ChatGPT 結果不受註釋歷史記錄的影響。

ChatGPT要把數據標註產業幹掉了?比人便宜20倍,而且還準

#圖1. 與MTurk 上高分標註人相比,ChatGPT zero -shot 的文字標註能力。ChatGPT 在五項任務中的四項中的準確性優於MTurk。

在上圖中ChatGPT 有優勢的在四項任務中,在一種情況下(相關性)ChatGPT 略有優勢,但其性能與MTurk 非常相似。其他三種情況下(frams I、frams II 和Stance),ChatGPT 的性能比MTurk 高2.2 到3.4 倍。此外,考慮到任務的難度、類別的數量以及註釋是零樣本的事實,ChatGPT 的準確度總體來說綽綽有餘。

對於相關性,有兩個類別(相關/ 不相關),ChatGPT 的準確率為72.8%,而對於立場,有三個類別(正面/ 負面/ 中性)的準確率為78.7%。隨著類別數量的增加,準確性會降低,儘管任務的內在難度也有影響。關於編碼器協議,圖1 顯示ChatGPT 的表現非常高,當溫度參數設定為0.2 時,所有任務的表現都超過95%。這些值高於任何人類,包括訓練有素的註釋者。即使使用預設溫度值1(這意味著更多的隨機性),編碼器間一致性始終超過84%。編碼器間一致性和準確性之間的關係是正的,但很弱(皮爾遜相關係數:0.17)。儘管相關性僅基於五個數據點,但它表明較低的溫度值可能更適合註釋任務,因為它似乎可以提高結果的一致性而不會大幅降低準確性。

必須強調的是,對ChatGPT 進行測試非常困難。內容審核是一個複雜的主題,需要大量資源。除了立場之外,研究人員還為特定研究目的開發了概念類別。此外,一些任務涉及大量類別,然而ChatGPT 仍然達到了很高的準確率。

使用模型來註釋資料並不是什麼新鮮事,在使用大規模資料集的電腦科學研究中,人們經常會標註少量樣本然後用機器學習進行擴增。不過在表現超過人類之後,未來我們或許可以更信任來自 ChatGPT 的判斷了。

以上是ChatGPT要把數據標註產業幹掉了?比人便宜20倍,而且還準的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
Excel中的回合功能是什麼? - 分析VidhyaExcel中的回合功能是什麼? - 分析VidhyaApr 17, 2025 am 10:56 AM

掌握Microsoft Excel的圓形功能,以獲得精確的數值數據 數字是電子表格的基礎,但是實現準確性和可讀性通常不僅需要原始數據。 Microsoft Excel的圓形功能是TRA的強大工具

使用LlamainDex的反射劑指南使用LlamainDex的反射劑指南Apr 17, 2025 am 10:41 AM

增強AI智能:深入研究LlamainDex的反射性AI代理 想像一個AI不僅可以解決問題,而且還反映了自己的改進思維過程。這是反光AI代理的領域,本文探討了

如何用蘭班計算和存儲矢量嵌入?如何用蘭班計算和存儲矢量嵌入?Apr 17, 2025 am 10:37 AM

利用Langchain和向量嵌入以增強內容檢索 先前的文章涵蓋了與查詢相關內容提取的數據加載和分裂技術。 本文使用向量嵌入來深入研究高級數據檢索

2025年僱用數據科學新生的前13家公司2025年僱用數據科學新生的前13家公司Apr 17, 2025 am 10:30 AM

數據科學職業:頂級公司和2024年成功的技巧 近期的數據科學畢業生和旨在跨國公司(MNC)的最終工程專業的學生有很多選擇。 本指南重點介紹了僱用數據SC的領先公司

如何與Genai創造引人入勝的客戶體驗?如何與Genai創造引人入勝的客戶體驗?Apr 17, 2025 am 10:27 AM

通過生成AI增強客戶體驗:一種戰略方法 客戶滿意度至關重要,企業越來越認識到提供出色的體驗的必要性。 超過70%的客戶希望個性化服務

AI的突破為Flux.1,Gemma 2,Sam 2等AI的突破為Flux.1,Gemma 2,Sam 2等Apr 17, 2025 am 10:26 AM

AI每週摘要:開創性的創新和道德考慮 歡迎回到Av Bytes,這是您每週最令人興奮的AI進步的綜述!本週的亮點展示了文本到圖像生成的顯著進步,模型效率

數據科學與計算機科學數據科學與計算機科學Apr 17, 2025 am 10:25 AM

引言 想像一下,您置身於一場科技大會,周圍環繞著志同道合的同行、有影響力的技術專家和 IT 愛好者。人群中,您偶然聽到兩位專業人士在討論他們的工作——一位數據科學家,對機器學習在疾病預測中的應用充滿熱情;另一位計算機科學家,在解釋他為軟件設計的新架構時也興致勃勃。細細聆聽,您會發現,儘管他們的目標都與技術相關,但他們所使用的策略和工具卻大相徑庭。這一發現激發了您的好奇心:數據科學和計算機科學究竟有何區別?讓我們一起踏上這段旅程,深入了解這兩個引人入勝的領域,它們的具體內容以及未來技術專家的發展方

擴散模型的不同組成部分是什麼?擴散模型的不同組成部分是什麼?Apr 17, 2025 am 10:23 AM

穩定的擴散:深入研究AI圖像生成 穩定的擴散已徹底改變了AI圖像的產生,從而從噪聲或文本提示中創建了高質量的圖像。這個強大的生成模型利用了幾個關鍵組件W

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器