首頁  >  文章  >  科技週邊  >  揭秘數據競賽勝利秘訣:探析A100在200場比賽中的優勢

揭秘數據競賽勝利秘訣:探析A100在200場比賽中的優勢

PHPz
PHPz轉載
2023-04-21 19:55:071293瀏覽

2022 年是 AI 領域發展的重要一年,在數據競賽領域也是如此,所有平台的總獎金超過了 500 萬美元。

近日,機器學習競賽分析平台 ML Contests 對 2022 年的資料競賽進行了大規模統計。新報告回顧了 2022 年發生的所有值得關注的事。以下是原文的編譯整理。

重點內容:

  • 成功參賽者的工具選擇:Python、Pydata、Pytorch 和梯度提升的決策樹。
  • 深度學習仍未取代梯度增強的決策樹,儘管在結識增強方法時,前者通常價值會有所提升。
  • Transformer 繼續在 NLP 中占主導地位,並開始在電腦視覺中和卷積神經網路開始競爭。
  • 當今資料競賽涵蓋了廣泛的研究領域,包括電腦視覺、NLP、資料分析、機器人、時間序列分析等。
  • 大集合模型在獲勝方案中仍然很普遍,一些單模型解決方案也能贏。
  • 有多個活躍的資料競賽平台存在。
  • 資料競賽社群持續成長,在學界也是一樣。
  • 大約有 50%獲獎者是一人團隊,50%的獲獎者是首次獲獎。
  • 有人使用了高階硬件,但像 Google Colab 這樣的免費資源也能贏得比賽。

比賽和趨勢

獎金數量最大的比賽是由美國復墾局贊助 Drivendata 的 Snow Cast Showdown 競賽。參與者可獲得 50 萬美元的獎金,旨在透過為西部的不同地區提供準確的雪水流量估算,以幫助改善供水管理。像往常一樣,Drivendata 詳細撰寫了比賽情況的文章並有詳細的解決方案報告,非常值得一讀。

2022 年最受歡迎的比賽是 Kaggle 的 American Express 預設預測競賽,旨在預測客戶是否會償還貸款。有超過 4000 支隊伍參賽,共 10 萬美元獎金分發至前四名的隊伍。今年第一次有首次參賽且單人隊伍獲得冠軍,其使用了神經網路和 LightGBM 模型的集合。

最大的獨立競賽是史丹佛大學的AI 審計挑戰,該挑戰為最佳的「模型、解決方案、資料集和工具」提供了7.1 萬美元的獎勵池,以尋求方法解決「非法歧視的AI 審核系統」的問題。

基於金融預測的三場比賽全部都在 Kaggle 上:分別是 JPX 的東京證券交易所預測,Ubiquant 的市場預測以及 G-Research 的加密預測。

在不同方向的對比中,電腦視覺佔比最高,NLP 位居第二,順序決策問題(強化學習)正在興起。 Kaggle 透過在 2020 年引入模擬競賽來回應這種流行的成長。 Aicrowd 也舉辦了許多強化學習類競賽。在 2022 年,其中有 25 場互動賽的比賽總額超過 30 萬美元。

在NeurIPS 2022 官方競賽Real Robot Challenge 中,參與者必須學會控制三指機器人,以將立方體移動到目標位置或將其定位在空間的特定點上,且要面對正確的方向。參與者的策略每週在實體機器人上運行,結果更新到排行榜上。獎勵為 5000 美元的獎品,以及在 NeurIPS 研討會上演講的學術榮譽。

平台

雖然人們都知道 Kaggle 和天池,但目前也有很多機器學習競賽平台組成了活躍的生態系統。

下圖為2022 平台比較:

揭秘數據競賽勝利秘訣:探析A100在200場比賽中的優勢

舉一些範例:

  • Kaggle 是最成熟的平台之一,它在 2017 年被Google收購,並擁有最大的社區,最近吸引了 1000 萬用戶。在 Kaggle 上進行帶獎金的比賽可能非常昂貴。除了舉辦比賽外,Kaggle 還允許用戶託管資料集,筆記和模型。
  • Codalab 是一個開源競賽平台,由巴黎大學 - 薩克萊大學維護。任何人都可以註冊,主持或參加比賽。其提供免費的 CPU 資源可用於推理,比賽組織者可以用自己的硬體補充。
  • Zindi 是一個較小的平台,具有非常活躍的社區,專注於將機構與非洲的資料科學家聯繫起來。 Drivendata 專注於具有社會影響力的競賽,並為 NASA 和其他組織開展了比賽。競賽總是在深入的研究報告後跟進。
  • Aicrowd 最初是瑞士聯邦理工學院(EPFL)的研究項目,現在是前五名競賽平台之一。它舉辦了幾場 NeurIPS 官方比賽。

揭秘數據競賽勝利秘訣:探析A100在200場比賽中的優勢

學術界

在大型平台上運行的比賽的大部分獎金都來自工業界,但是機器學習競賽顯然在學術界擁有更豐富的歷史,正如Isabelle Guyon 今年在NeurIPS 邀請演講中所討論的那樣。

NeurIPS 是全球最負盛名的學術機器學習會議之一,過去十年中最重要的機器學習論文經常會在大會上呈現,包括AlexNet,GAN,Transformer 和GPT-3。

NeurIPS 在 2014 年首次在機器學習(CIML)研討會方面舉辦了資料挑戰賽,自 2017 年以來一直有競賽環節。從那時起,競賽和總獎金不斷增長,在 2022 年 12 月達到了接近 40 萬美元。

其他機器學習會議也舉辦了比賽,包括 CVPR、ICPR、IJCAI、ICRA、ECCV、PCIC 和 AutoML。

獎金

大約一半的機器學習比賽有超過 1 萬美元的獎金池。毫無疑問,許多有趣的比賽獎金不多,本報告僅考慮那些有貨幣獎品或學術榮譽的部分。通常,與享有聲望的學術會議相關的數據比賽為獲獎者提供了旅行贈款,以便他們參加會議。

雖然平均而言,一些比賽平台確實傾向於擁有比其他平台更大的獎金池(見平台比較圖表),但許多平台在2022 年至少舉辦過一場獎池非常大的比賽—— 總獎金排名前十的比賽包括在DrivenData、Kaggle、CodaLab 和AIcrowd 上運行的。

奪冠方法

該調查透過問捲和觀察程式碼的方式分析獲勝演算法使用的技術。

相當一致的是,Python 是競賽獲勝者的首選語言,這對人們來說可能不是個預料之外的結果。在使用 Python 的人中,大約一半主要使用 Jupyter Notebook,另一半則使用標準 Python 腳本。

揭秘數據競賽勝利秘訣:探析A100在200場比賽中的優勢

一個主要使用R 語言的獲勝解決方案是:Amir Ghazi 贏得了Kaggle 上預測2022 年美國男子大學籃球錦標賽獲勝者的比賽。他透過使用 —— 顯然是逐字複製 ——2018 年同類競賽獲勝解決方案的代碼來做到這一點,該方法由 Kaggle Grandmaster Darius Barušauskas 撰寫。讓人難以想像的是,Darius 也參加了 2022 年的比賽,他使用新的方法,並獲得了第 593 名。

獲獎者使用的Python 套件

在觀察獲勝解決方案中使用的軟體包時,結果顯示所有使用Python 的獲獎者都在一定程度上使用了PyData 堆疊。

將最受歡迎的軟體包分為三類 —— 核心工具包、NLP 類別和電腦視覺類別。

揭秘數據競賽勝利秘訣:探析A100在200場比賽中的優勢

其中,深度學習框架PyTorch 的成長一直穩定,其從2021 年到2022 年的躍升非常明顯:PyTorch 從獲勝解決方案的77% 增加到了96%。

在 46 個使用深度學習的獲獎解決方案中,44 個使用 PyTorch 作為他們的主要框架,只有兩個使用 TensorFlow。更明顯的是,使用 TensorFlow 贏得的兩場比賽之一,Kaggle 的大堡礁競賽,提供額外的 5 萬美元獎金給使用 TensorFlow 的獲勝團隊。另一個使用 TensorFlow 獲勝的比賽使用了高級的 Keras API。

揭秘數據競賽勝利秘訣:探析A100在200場比賽中的優勢

雖然有3 位獲勝者使用pytorch-lightning 和1 位使用fastai— 兩者都建立在PyTorch之上—— 但絕大多數人直接使用PyTorch。

現在或許可以說至少在資料競賽上,PyTorch 贏得了機器學習框架之爭。這與更廣泛的機器學習研究趨勢一致。

值得注意的是,我們沒有發現任何獲勝團隊使用其他神經網路庫的實例,例如JAX(由Google 構建,由DeepMind 使用)、PaddlePaddle(由百度開發)或MindSpore(華為開發)。

電腦視覺

工具有一統江湖的趨勢,技術卻不是。在 CVPR 2022 上,ConvNext 架構被介紹為「2020 年代的 ConvNet」,並證明其性能優於最近的基於 Transformer 的模型。它被用於至少兩個贏得比賽的電腦視覺解決方案,而 CNN 總體上仍是迄今為止電腦視覺競賽獲獎者中最喜歡的神經網路架構。

揭秘數據競賽勝利秘訣:探析A100在200場比賽中的優勢

電腦視覺與語言建模非常相似的地方在於使用預訓練模型:在公共資料集(例如ImageNet )上訓練的易於理解的架構。最受歡迎的儲存庫是 Hugging Face Hub,可透過 timm 訪問,這使得加載數十種不同電腦視覺模型的預訓練版本變得極為方便。

使用預訓練模型的優勢是顯而易見的:真實世界的圖像和人類生成的文本都有一些共同的特徵,使用預訓練模型可以帶來常識的知識,類似於使用了更大、更通用的訓練資料集。

通常,預先訓練好的模型會根據特定任務的資料(例如比賽組織者提供的資料)進行微調 —— 進一步訓練,但並非總是如此。 Image Matching Challenge 的獲勝者使用了預訓練模型,完全沒有任何微調——「由於本次比賽中訓練和測試資料的品質(不同),我們沒有使用提供的訓練進行fine-tuning,因為我們認為它會不太有效。」這個決定得到了回報。

到目前為止,2022 年獲獎者中最受歡迎的預訓練電腦視覺模型類型是 EfficientNet,顧名思義,它的優勢在於比許多其他模型佔用資源更少。

揭秘數據競賽勝利秘訣:探析A100在200場比賽中的優勢

自然語言處理

#自2017 年問世以來,基於Transformer 的模型一直主導著自然語言處理(NLP)領域。 Transformer 是 BERT 和 GPT 中的“T”,也是 ChatGPT 中的核心。

因此,自然語言處理競賽中所有獲勝的解決方案都是基於 Transformer 的模型為核心也就不足為奇了。它們都是在 PyTorch 中實現的,這並不奇怪。他們都使用了預訓練模型,使用 Hugging Face 的 Transformers 庫加載,幾乎所有模型都使用了 Microsoft Research 的 DeBERTa 模型版本 —— 通常是 deberta-v3-large。

它們其中的許多都需要大量的運算資源。例如,Google AI4Code 獲勝者運行 A100(80GB)大約 10 天,以訓練單個 deberta-v3-large 用於他們的最終解決方案。這種方法是個例外(使用單一主模型和固定的訓練 / 評估分割)— 所有其他解決方案都大量使用整合模型,幾乎都使用各種形式的 k-fold 交叉驗證。例如,Jigsaw Toxic Comments 比賽的獲勝者使用了 15 個模型輸出的加權平均值。

基於 Transformer 的整合有時會與 LSTM 或 LightGBM 結合使用,也有至少兩個偽標籤實例被有效地用於獲勝的解決方案。

XGBoost 曾經是 Kaggle 的代名詞。然而,LightGBM 顯然是2022 年獲獎者最喜歡的GBDT 庫—— 獲獎者在他們的解決方案報告或問卷中提到LightGBM 的次數與CatBoost 和XGBoost 的總和相同,CatBoost 位居第二,XGBoost 出人意料地排名第三。

運算與硬體

揭秘數據競賽勝利秘訣:探析A100在200場比賽中的優勢

#如大致預期的,大多數獲勝者都使用GPU 進行訓練— — 這可以大大提高梯度提升樹的訓練性能,並且實際上是深度神經網路所必需的。相當多的獲獎者可以訪問其雇主或大學提供的集群,通常包括 GPU。

有點令人驚訝的是,我們沒有發現任何使用 Google 的張量處理單元 TPU 來訓練獲勝模型的實例。我們也沒有看到任何關於蘋果 M 系列晶片上訓練的獲勝模型,蘋果晶片自 2022 年 5 月以來一直得到 PyTorch 的支援。

Google的雲端筆記本解決方案Colab 很受歡迎,有一位獲勝者使用免費套餐,一位使用Pro 套餐,另一位使用Pro (我們無法確定第四位獲勝者使用Colab 所使用的套餐)。

本地個人硬體比雲端硬體更受歡迎,儘管九名獲獎者提到了他們用於訓練的 GPU,但沒有具體說明他們使用的是本地 GPU 還是雲端 GPU。

揭秘數據競賽勝利秘訣:探析A100在200場比賽中的優勢

最受歡迎的GPU 是最新的高階AI 加速卡NVIDIA A100(這裡將A100 40GB 和A100 80GB 放在一起,因為獲勝者並不總是區分兩者),而且通常使用多塊A100—— 例如,Zindi 的Turtle Recall 競賽的獲勝者使用8 塊A100(40GB)GPU,另外兩個獲勝者使用4 塊A100。

團隊組成

許多比賽允許每個團隊最多5 名參賽者,團隊可以由個人或較小的團隊在成績提交截止日期前的某個deadline 前「合併」在一起組成。

一些比賽允許更大的團隊,例如,Waymo 的開放資料挑戰允許每個團隊最多 10 個人。

揭秘數據競賽勝利秘訣:探析A100在200場比賽中的優勢

#結論

#這是對 2022 年機器學習競賽的大致觀察。希望你可以從中找到一些有用資訊。

2023 年有許多令人興奮的新比賽,我們期待在這些比賽結束時發布更多見解。

以上是揭秘數據競賽勝利秘訣:探析A100在200場比賽中的優勢的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除