數據來源仍然是人工智慧主要瓶頸-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

數據來源仍然是人工智慧主要瓶頸

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 09, 2023 am 10:41 AM

人工智慧深度學習數據來源

根據Appen本週發布的《人工智慧和機器學習狀況》報告，各機構仍在努力獲取良好、乾淨的數據，以維持其人工智慧和機器學習計畫。

數據來源仍然是人工智慧主要瓶頸

根據Appen對504名商業領袖和技術專家的調查，在人工智慧的四個階段中，資料來源；資料準備；模型訓練與部署；人工主導的模型評估階段－資料來源消耗的資源最多、時間最長、最具挑戰性。

根據Appen的調查，資料來源平均消耗企業組織34%的人工智慧預算，資料準備、模型測試和部署各佔24%，模型評估佔15%。該調查由哈里斯調查(Harris Poll)進行，受訪者包括來自美國、英國、愛爾蘭和德國的IT決策者、商業領袖和經理以及技術從業者。

數據來源仍然是人工智慧主要瓶頸

就時間而言，資料來源大約消耗26%的時間，資料準備的時間為24%，模型測試、部署和模型評估的時間各為23% 。最後，42%的技術人員認為資料來源是AI生命週期中最具挑戰性的階段，其他階段情況分別為：模型評估(41%)、模型測試和部署(38%)和資料準備(34%) 。

儘管面臨挑戰，但各企業組織都在努力使其發揮作用。據Appen稱，五分之四(81%)的受訪者表示，他們有足夠的數據來支持他們的人工智慧計畫。成功的關鍵可能在於：絕大多數(88%)的公司透過使用外部AI訓練資料提供者(如Appen)來擴充資料。

然而，數據的準確性仍有待商榷。 Appen發現，只有20%的受訪者報告數據準確率超過80%。只有6%（大約每20個人中有一個）說他們的數據準確性達到90%或更高。

考慮到這一點，根據Appen的調查，近一半(46%)的受訪者認為資料的準確性很重要。只有2%的人認為數據準確性不是很大的需求，而51%的人認為這是至關重要的需求。

Appen的技術長Wilson Pang對資料品質的重要性有著不同的看法，他的客戶中有48%認為資料品質不重要。

報告中說：「數據的準確性對人工智慧和ML模型的成功至關重要，因為質量豐富的數據會產生更好的模型輸出和一致的處理和決策。」「為了獲得好的結果，數據集必須準確、全面和可擴展。」

深度學習和以數據為中心的人工智慧的興起，已經將人工智慧成功的動力從良好的數據科學和機器學習構建模轉移到良好的資料收集、管理和標籤。在當今的遷移學習技術中，這一點尤其明顯。人工智慧的實踐者會放棄一個大型的預先訓練的語言或電腦視覺模型，用他們自己的資料對其中的一小部分進行再訓練。

更好的數據還可以幫助防止不必要的偏見滲透到人工智慧模型中，防止人工智慧可能導致的壞結果。對於大型語言模型來說，這一點尤其明顯。

報告中說：「隨著在多語言網路抓取資料上訓練的大型語言模型(LLM)的興起，企業正面臨另一個挑戰。由於訓練語料庫中充斥著有毒的語言，以及種族、性別和宗教偏見，這些模型通常會表現出不受歡迎的行為。」

網路資料的偏見引發了棘手的問題，雖然有一些變通辦法(改變訓練方案，過濾訓練資料和模型輸出，並從人類回饋和測試中學習)，但需要進行更多的研究，以創建一個「以人為中心的LLM」基準和模型評估方法的良好標準。

Appen表示，資料管理仍是人工智慧面臨的最大障礙。調查發現，在人工智慧循環中，41%的人認為資料管理是最大的瓶頸。排在第四位的是缺乏數據，30%的受訪者認為這是人工智慧成功的最大障礙。

但也有一些好消息：企業用於管理和準備資料的時間正在下降。 Appen說，今年的比例剛超過47%，而去年報告中的比例為53%。

「由於大多數受訪者使用外部資料提供者，可以推斷，透過外包資料來源和準備，資料科學家正在節省適當管理、清潔和標籤他們的資料所需的時間。」資料標籤公司說。

然而，根據資料中相對較高的錯誤率判斷，也許組織不應該縮減其資料來源和準備過程(無論是內部的還是外部的)。當涉及到建立和維護AI流程時，有許多相互競爭的需求——僱用合格的資料專業人員的需求是Appen確定的另一個首要需求。但是，在資料管理取得重大進展之前，組織應該繼續向他們的團隊施加壓力，繼續推動資料品質的重要性。

調查也發現，93%的組織強烈或在某種程度上同意AI倫理應該是AI計畫的「基礎」。 Appen執行長Mark Brayan表示，這是一個良好的開端，但還有很多工作要做。 Brayan在一份新聞稿中說：「問題是，許多人正面臨著試圖用糟糕的數據集構建偉大的人工智能的挑戰，這為實現他們的目標製造了巨大的障礙。」

根據Appen的報告，企業內部自訂收集的資料仍是用於人工智慧的主要資料集，佔資料的38%至42%。合成資料表現出驚人的強勁，佔組織資料的24%至38%，而預標記資料(通常來自資料服務提供者)佔資料的23%至31%。

特別是，合成資料有可能減少敏感AI專案中的偏差發生率，Appen 97%的調查參與者表示，他們在「開發包容性訓練資料集」中使用了合成資料。

數據來源仍然是人工智慧主要瓶頸

報告中其他有趣地發現包括:

77%的組織每月或每季對他們的模型進行再訓練;（ Ai時代前沿解讀：人工智慧不是一勞永逸的，根據應用需求不斷提升，需要不斷更新。）
55%的美國企業聲稱自己領先於競爭對手，而在歐洲這一比例為44%; （Ai時代前沿解讀：歐洲人略微比美國人低調一些。）
42%的組織報告指出人工智慧「廣泛」推出，而在《2021年人工智慧狀態報告》中，這一比例為51%;（Ai時代前沿解讀：人工智慧應用越來越廣泛了。）
7%的機構報告人工智慧預算超過500萬美元，而去年這一比例為9%。（Ai時代前沿解讀：一方面可能由於人工智慧逐漸成熟降低了成本，也說明人工智慧不再是一個“奢侈品”，正逐漸成為企業的“必備品”。）

以上是數據來源仍然是人工智慧主要瓶頸的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

AI技能差距正在減慢供應鏈Apr 26, 2025 am 11:13 AM

經常使用“ AI-Ready勞動力”一詞，但是在供應鏈行業中確實意味著什麼？供應鏈管理協會（ASCM）首席執行官安倍·埃什肯納齊（Abe Eshkenazi）表示，它表示能夠評論家的專業人員

一家公司如何悄悄地努力改變AIApr 26, 2025 am 11:12 AM

分散的AI革命正在悄悄地獲得動力。本週五在德克薩斯州奧斯汀，Bittensor最終遊戲峰會標誌著一個關鍵時刻，將分散的AI（DEAI）從理論轉變為實際應用。與閃閃發光的廣告不同

NVIDIA釋放NEMO微服務以簡化AI代理開發Apr 26, 2025 am 11:11 AM

企業AI面臨數據集成挑戰企業AI的應用面臨一項重大挑戰：構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題，允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。這個新推出的工具包包含五個關鍵微服務： NeMo Customizer 處理大型語言模型的微調，具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制，以保持合規性和適當的

AI為藝術與設計的未來描繪了一幅新圖片Apr 26, 2025 am 11:10 AM

AI：藝術與設計的未來畫卷人工智能(AI)正以前所未有的方式改變藝術與設計領域，其影響已不僅限於業餘愛好者，更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師，例如廣告、社交媒體圖片生成和網頁設計。然而，專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具，探索新的美學可能性，融合不同的風格，創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務，提出不同的設計元素並提供創意輸入。 AI支持風格遷移，即將一種圖像的風格應用

Zoom如何徹底改變與Agent AI的合作：從會議到里程碑Apr 26, 2025 am 11:09 AM

Zoom最初以其視頻會議平台而聞名，它通過創新使用Agentic AI來引領工作場所革命。最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。定義代理AI 黃d

對大學的存在威脅Apr 26, 2025 am 11:08 AM

AI會徹底改變教育嗎？這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。正如科技Edvocate的馬修·林奇（Matthew Lynch）所指出的那樣

原型：美國科學家正在國外尋找工作Apr 26, 2025 am 11:07 AM

美國科學研究和技術發展或將面臨挑戰，這或許是由於預算削減導致的。據《自然》雜誌報導，2025年1月至3月期間，美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示，75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。過去幾個月，數百項NIH和NSF的撥款被終止，NIH今年的新撥款減少了約23億美元，下降幅度接近三分之一。洩露的預算提案顯示，特朗普政府正在考慮大幅削減科學機構的預算，削減幅度可能高達50%。基礎研究領域的動盪也影響了美國的一大優勢：吸引海外人才。 35