根據Appen本週發布的《人工智慧和機器學習狀況》報告,各機構仍在努力獲取良好、乾淨的數據,以維持其人工智慧和機器學習計畫。
根據Appen對504名商業領袖和技術專家的調查,在人工智慧的四個階段中,資料來源;資料準備;模型訓練與部署;人工主導的模型評估階段-資料來源消耗的資源最多、時間最長、最具挑戰性。
根據Appen的調查,資料來源平均消耗企業組織34%的人工智慧預算,資料準備、模型測試和部署各佔24%,模型評估佔15%。該調查由哈里斯調查(Harris Poll)進行,受訪者包括來自美國、英國、愛爾蘭和德國的IT決策者、商業領袖和經理以及技術從業者。
就時間而言,資料來源大約消耗26%的時間,資料準備的時間為24%,模型測試、部署和模型評估的時間各為23% 。最後,42%的技術人員認為資料來源是AI生命週期中最具挑戰性的階段,其他階段情況分別為:模型評估(41%)、模型測試和部署(38%)和資料準備(34%) 。
儘管面臨挑戰,但各企業組織都在努力使其發揮作用。據Appen稱,五分之四(81%)的受訪者表示,他們有足夠的數據來支持他們的人工智慧計畫。成功的關鍵可能在於:絕大多數(88%)的公司透過使用外部AI訓練資料提供者(如Appen)來擴充資料。
然而,數據的準確性仍有待商榷。 Appen發現,只有20%的受訪者報告數據準確率超過80%。只有6%(大約每20個人中有一個)說他們的數據準確性達到90%或更高。
考慮到這一點,根據Appen的調查,近一半(46%)的受訪者認為資料的準確性很重要。只有2%的人認為數據準確性不是很大的需求,而51%的人認為這是至關重要的需求。
Appen的技術長Wilson Pang對資料品質的重要性有著不同的看法,他的客戶中有48%認為資料品質不重要。
報告中說:「數據的準確性對人工智慧和ML模型的成功至關重要,因為質量豐富的數據會產生更好的模型輸出和一致的處理和決策。」「為了獲得好的結果,數據集必須準確、全面和可擴展。」
深度學習和以數據為中心的人工智慧的興起,已經將人工智慧成功的動力從良好的數據科學和機器學習構建模轉移到良好的資料收集、管理和標籤。在當今的遷移學習技術中,這一點尤其明顯。人工智慧的實踐者會放棄一個大型的預先訓練的語言或電腦視覺模型,用他們自己的資料對其中的一小部分進行再訓練。
更好的數據還可以幫助防止不必要的偏見滲透到人工智慧模型中,防止人工智慧可能導致的壞結果。對於大型語言模型來說,這一點尤其明顯。
報告中說:「隨著在多語言網路抓取資料上訓練的大型語言模型(LLM)的興起,企業正面臨另一個挑戰。由於訓練語料庫中充斥著有毒的語言,以及種族、性別和宗教偏見,這些模型通常會表現出不受歡迎的行為。」
網路資料的偏見引發了棘手的問題,雖然有一些變通辦法(改變訓練方案,過濾訓練資料和模型輸出,並從人類回饋和測試中學習),但需要進行更多的研究,以創建一個「以人為中心的LLM」基準和模型評估方法的良好標準。
Appen表示,資料管理仍是人工智慧面臨的最大障礙。調查發現,在人工智慧循環中,41%的人認為資料管理是最大的瓶頸。排在第四位的是缺乏數據,30%的受訪者認為這是人工智慧成功的最大障礙。
但也有一些好消息:企業用於管理和準備資料的時間正在下降。 Appen說,今年的比例剛超過47%,而去年報告中的比例為53%。
「由於大多數受訪者使用外部資料提供者,可以推斷,透過外包資料來源和準備,資料科學家正在節省適當管理、清潔和標籤他們的資料所需的時間。」資料標籤公司說。
然而,根據資料中相對較高的錯誤率判斷,也許組織不應該縮減其資料來源和準備過程(無論是內部的還是外部的)。當涉及到建立和維護AI流程時,有許多相互競爭的需求——僱用合格的資料專業人員的需求是Appen確定的另一個首要需求。但是,在資料管理取得重大進展之前,組織應該繼續向他們的團隊施加壓力,繼續推動資料品質的重要性。
調查也發現,93%的組織強烈或在某種程度上同意AI倫理應該是AI計畫的「基礎」。 Appen執行長Mark Brayan表示,這是一個良好的開端,但還有很多工作要做。 Brayan在一份新聞稿中說:「問題是,許多人正面臨著試圖用糟糕的數據集構建偉大的人工智能的挑戰,這為實現他們的目標製造了巨大的障礙。」
根據Appen的報告,企業內部自訂收集的資料仍是用於人工智慧的主要資料集,佔資料的38%至42%。合成資料表現出驚人的強勁,佔組織資料的24%至38%,而預標記資料(通常來自資料服務提供者)佔資料的23%至31%。
特別是,合成資料有可能減少敏感AI專案中的偏差發生率,Appen 97%的調查參與者表示,他們在「開發包容性訓練資料集」中使用了合成資料。
報告中其他有趣地發現包括:
以上是數據來源仍然是人工智慧主要瓶頸的詳細內容。更多資訊請關注PHP中文網其他相關文章!