집 >기술 주변기기 >일체 포함 >데이터 경쟁에서 승리의 비결을 밝히다: 200경기에서 A100의 장점을 분석하다

데이터 경쟁에서 승리의 비결을 밝히다: 200경기에서 A100의 장점을 분석하다

PHPz앞으로: 2023-04-21 19:55:071460검색

2022년은 AI뿐만 아니라 데이터 대회에서도 중요한 해입니다. 모든 플랫폼의 총 상금이 500만 달러를 넘습니다.

최근 머신러닝 대회 분석 플랫폼 ML 콘테스트(ML Contests)에서는 2022년 데이터 대회에 대한 대규모 통계를 실시했습니다. 새로운 보고서에서는 2022년에 주목할 만한 모든 사건을 살펴봅니다. 다음은 원문을 편집한 것입니다.

하이라이트:

성공적인 참가자를 위한 도구 선택: Python, Pydata, Pytorch 및 그래디언트 강화 의사 결정 트리.
딥 러닝은 아직 그래디언트 부스트 결정 트리를 대체하지 못했지만, 부스팅 방법에 익숙해지면 전자의 가치가 높아지는 경우가 많습니다.
Transformer는 NLP에서 계속해서 우위를 점하고 있으며 컴퓨터 비전 분야에서 컨벌루션 신경망과 경쟁하기 시작했습니다.
오늘의 데이터 경연대회는 컴퓨터 비전, NLP, 데이터 분석, 로봇공학, 시계열 분석 등 광범위한 연구 분야를 다루고 있습니다.
우승 솔루션에서는 여전히 대규모 앙상블 모델이 일반적이며 일부 단일 모델 솔루션도 우수합니다.
활성화된 데이터 경쟁 플랫폼이 여러 개 있습니다.
학계를 포함해 데이터 경쟁 커뮤니티가 계속해서 성장하고 있습니다.
당첨자의 약 50%는 1인 팀이고, 약 50%의 당첨자는 최초 우승자입니다.
고급 하드웨어를 사용하는 사람들도 있지만 Google Colab과 같은 무료 리소스도 게임에서 승리할 수 있습니다.

콘테스트 및 트렌드

상금이 가장 큰 콘테스트는 미국 국토개발국이 후원하는 Drivendata의 Snow Cast Showdown 콘테스트입니다. 참가자들은 상금 $500,000를 받으며 서부 전역의 다양한 지역에 대한 정확한 눈물 흐름 추정치를 제공함으로써 물 공급 관리 개선에 도움을 주기 위해 고안되었습니다. 언제나 그렇듯이 Drivendata는 매치업에 대한 자세한 기사를 작성했으며 읽을 가치가 있는 자세한 솔루션 보고서를 보유하고 있습니다.

2022년 가장 인기 있는 대회는 고객의 대출금 상환 여부를 예측하는 Kaggle의 American Express 부실 예측 대회입니다. 4,000개 이상의 팀이 경쟁했으며 상위 4개 팀에는 100,000달러의 상금이 분배되었습니다. 올해 처음으로 신경망과 LightGBM 모델의 앙상블을 사용한 1인 팀이 첫 번째 출품작에서 승리했습니다.

가장 큰 독립 대회는 스탠포드 대학의 AI 감사 챌린지입니다. 이 대회에서는 '불법 차별' 문제를 해결하는 방법을 찾기 위한 최고의 '모델, 솔루션, 데이터 세트 및 도구'에 대해 71,000달러의 보상 풀을 제공합니다. .

재무 예측을 기반으로 한 세 가지 대회가 모두 Kaggle에 있습니다. JPX의 도쿄 증권 거래소 예측, UbiQuant의 시장 예측, G-Research의 암호화폐 예측입니다.

다양한 비교에서는 컴퓨터 비전이 가장 높은 비중을 차지하고, NLP가 2위를 차지하고, 순차적 의사결정 문제(강화 학습)가 증가하는 추세입니다. Kaggle은 2020년에 시뮬레이션 대회를 도입하여 이러한 인기 증가에 대응했습니다. Aicrowd는 또한 많은 강화 학습 대회를 주최합니다. 2022년에는 인터랙티브 이벤트 중 25개 이벤트의 총 금액이 300,000달러가 넘었습니다.

NeurIPS 2022 공식 대회인 Real Robot Challenge에서 참가자는 정확한 방향을 바라보면서 세 손가락 로봇을 제어하여 큐브를 대상 위치로 이동하거나 공간의 특정 지점에 배치하는 방법을 배워야 합니다. 참가자들의 전략은 매주 실제 로봇에서 실행되며, 그 결과는 리더보드에 업데이트됩니다. 이상은 $5,000의 상금과 NeurIPS 심포지엄에서 연설할 수 있는 학문적 영예입니다.

Platform

Kaggle과 Tianchi에 익숙하지만, 현재 활발한 생태계를 형성하는 머신러닝 대회 플랫폼이 많이 있습니다.

아래 그림은 2022년 플랫폼 비교를 보여줍니다.

데이터 경쟁에서 승리의 비결을 밝히다: 200경기에서 A100의 장점을 분석하다

예를 들어보세요:

Kaggle은 가장 확고한 플랫폼 중 하나입니다. 2017년 Google에 인수되었으며 최근 천만 명의 사용자를 유치하는 최대 규모의 커뮤니티를 보유하고 있습니다. Kaggle에서 상금이 걸린 대회를 운영하는 것은 매우 비쌀 수 있습니다. Kaggle에서는 대회를 주최하는 것 외에도 사용자가 데이터세트, 노트, 모델을 호스팅할 수 있습니다.
Codalab은 University of Paris - Saclay에서 관리하는 오픈 소스 경쟁 플랫폼입니다. 누구나 콘테스트에 등록, 주최, 참가할 수 있습니다. 이는 추론을 위한 무료 CPU 리소스를 제공하며, 대회 주최자는 이를 자체 하드웨어로 보완할 수 있습니다.
Zindi는 아프리카의 데이터 과학자와 기관을 연결하는 데 초점을 맞춘 매우 활동적인 커뮤니티를 갖춘 소규모 플랫폼입니다. Drivendata는 사회적 영향 대회에 중점을 두고 NASA 및 기타 조직을 위한 대회를 개발했습니다. 대회 뒤에는 항상 심층적인 연구 보고서가 이어집니다.
Aicrowd는 스위스 연방 공과대학(EPFL)의 연구 프로젝트로 시작하여 현재 상위 5개 경쟁 플랫폼 중 하나입니다. 여러 공식 NeurIPS 대회를 개최합니다.

데이터 경쟁에서 승리의 비결을 밝히다: 200경기에서 A100의 장점을 분석하다

Academia

대부분의 대규모 플랫폼에서 진행되는 대회의 상금은 업계에서 발생하지만 올해 NeurIPS에서 Isabelle Guyon이 그랬던 것처럼 기계 학습 대회는 확실히 학계에서 더 풍부한 역사를 가지고 있습니다. 논의한 바와 같이 초청연설 중.

NeurIPS는 AlexNet, GAN, Transformer 및 GPT-3를 포함하여 지난 10년간 가장 중요한 기계 학습 논문이 정기적으로 발표되는 세계에서 가장 권위 있는 학술 기계 학습 컨퍼런스 중 하나입니다.

NeurIPS는 2014년 CIML(Data Challenge in Machine Learning) 워크숍을 처음 개최했으며, 2017년부터 대회 구성 요소가 있었습니다. 이후 대회 규모와 총 상금이 계속 늘어나 2022년 12월에는 거의 40만 달러에 이르렀습니다.

CVPR, ICPR, IJCAI, ICRA, ECCV, PCIC 및 AutoML을 포함한 다른 기계 학습 컨퍼런스에서도 대회가 개최됩니다.

상금

모든 기계 학습 대회의 약 절반은 상금 풀이 $10,000 이상입니다. 많은 흥미로운 대회가 작은 상을 제공한다는 것은 의심의 여지가 없으며, 이 보고서는 금전적인 상이나 학문적 명예를 가진 대회만 고려합니다. 종종 권위 있는 학술 컨퍼런스와 관련된 데이터 대회에서는 우승자에게 컨퍼런스 참석을 위한 여행 보조금을 제공합니다.

일부 토너먼트 플랫폼은 다른 플랫폼보다 평균적으로 더 큰 상금 풀을 갖는 경향이 있지만(플랫폼 비교 차트 참조), 많은 플랫폼은 2022년에 매우 큰 상금 풀이 있는 토너먼트를 하나 이상 개최했습니다. - 총 상금 상위 10개 대회에는 다음이 포함됩니다. DrivenData, Kaggle, CodaLab 및 AIcrowd에서 실행됩니다.

How to win

이 설문조사는 설문지와 코드 관찰을 통해 승리 알고리즘이 사용하는 기술을 분석합니다.

아주 일관되게 Python은 콘테스트 우승자가 선택한 언어였으며 이는 사람들에게 예상치 못한 결과가 아닐 수도 있습니다. Python을 사용하는 사용자 중 약 절반은 주로 Jupyter Notebook을 사용하고 나머지 절반은 표준 Python 스크립트를 사용합니다.

데이터 경쟁에서 승리의 비결을 밝히다: 200경기에서 A100의 장점을 분석하다

주로 R을 사용한 우승 솔루션: Amir Ghazi가 2022년 미국 남자 대학 농구 챔피언십 우승자를 예측하는 Kaggle 대회에서 우승했습니다. 그는 Kaggle Grandmaster Darius Barušauskas가 작성한 2018년 대회 우승 솔루션의 코드(말 그대로 복사한 것으로 보이는)를 사용하여 이를 수행했습니다. 믿을 수 없을 정도로 Darius는 2022년에도 이 경주에 참가하여 새로운 접근 방식을 사용하여 593위를 기록했습니다.

승자가 사용한 Python 패키지

당선된 솔루션에 사용된 패키지를 살펴보면 Python을 사용하는 모든 우승자가 어느 정도 PyData 스택을 사용하는 것으로 나타났습니다.

가장 인기 있는 소프트웨어 패키지는 핵심 툴킷, NLP 카테고리, 컴퓨터 비전 카테고리의 세 가지 카테고리로 나뉩니다.

데이터 경쟁에서 승리의 비결을 밝히다: 200경기에서 A100의 장점을 분석하다

그 중에서도 딥 러닝 프레임워크인 PyTorch의 성장은 꾸준했고 2021년에서 2022년으로의 도약은 매우 분명합니다. PyTorch는 우승 솔루션의 77%에서 96%로 증가했습니다.

딥 러닝을 사용한 46개의 성공적인 솔루션 중 44개가 PyTorch를 기본 프레임워크로 사용했고 단 2개만이 TensorFlow를 사용했습니다. 더욱 놀라운 사실은 TensorFlow를 사용하여 우승한 두 대회 중 하나인 Kaggle의 그레이트 배리어 리프 대회(Great Barrier Reef Competition)에서 TensorFlow를 사용하여 우승한 팀에게 추가 상금 $50,000를 제공한다는 것입니다. TensorFlow를 사용하여 우승한 또 다른 대회에서는 높은 수준의 Keras API를 사용했습니다.

데이터 경쟁에서 승리의 비결을 밝히다: 200경기에서 A100의 장점을 분석하다

3명의 우승자는 pytorch-lightning을 사용했고 1명은 fastai를 사용했습니다. 둘 다 PyTorch를 기반으로 구축되었으며 대다수는 PyTorch를 직접 사용했습니다.

이제 최소한 데이터 경쟁에서는 PyTorch가 머신러닝 프레임워크의 싸움에서 승리했다고 말할 수 있습니다. 이는 보다 광범위한 머신러닝 연구 동향과 일치합니다.

JAX(Google에서 구축하고 DeepMind에서 사용), PaddlePaddle(Baidu에서 개발) 또는 MindSpore(Huawei에서 개발)와 같은 다른 신경망 라이브러리를 사용하여 우승한 팀의 사례를 찾지 못했다는 점은 주목할 가치가 있습니다. ).

컴퓨터 비전

도구는 세상을 지배하는 경향이 있지만 기술은 그렇지 않습니다. CVPR 2022에서 ConvNext 아키텍처는 "2020년대의 ConvNet"으로 소개되었으며 최근 Transformer 기반 모델보다 뛰어난 성능을 입증했습니다. 이는 적어도 두 개의 경쟁에서 우승한 컴퓨터 비전 솔루션에 사용되었으며, CNN은 전체적으로 현재까지 컴퓨터 비전 경쟁에서 우승한 사람들 사이에서 가장 인기 있는 신경망 아키텍처로 남아 있습니다.

데이터 경쟁에서 승리의 비결을 밝히다: 200경기에서 A100의 장점을 분석하다

컴퓨터 비전은 사전 훈련된 모델을 사용한다는 점에서 언어 모델링과 매우 유사합니다. 즉, ImageNet과 같은 공개 데이터 세트에 대해 훈련된 이해하기 쉬운 아키텍처입니다. 가장 인기 있는 저장소는 timm을 통해 액세스할 수 있는 Hugging Face Hub입니다. 이를 통해 수십 가지의 다양한 컴퓨터 비전 모델의 사전 훈련된 버전을 로드하는 것이 매우 편리합니다.

사전 학습된 모델을 사용하면 이점이 분명합니다. 실제 이미지와 인간이 생성한 텍스트에는 몇 가지 공통된 특징이 있으며, 사전 학습된 모델을 사용하면 더 크고 일반적인 모델을 사용하는 것과 유사한 상식 지식을 얻을 수 있습니다. 훈련 데이터 세트.

종종 사전 훈련된 모델은 작업별 데이터(예: 대회 주최자가 제공한 데이터)를 기반으로 미세 조정(추가 훈련)되지만 항상 그런 것은 아닙니다. 이미지 매칭 챌린지 우승자는 전혀 미세 조정 없이 사전 훈련된 모델을 사용했습니다. - "이번 대회의 훈련 및 테스트 데이터의 (다른) 품질로 인해 제공된 훈련을 사용하여 미세 조정하지 않았습니다. 그다지 효과적이지 않을 것이라고 생각했습니다." 그 결정은 성과를 거두었습니다.

지금까지 2022년 우승자 중 가장 인기 있는 사전 훈련된 컴퓨터 비전 모델 유형은 EfficientNet입니다. EfficientNet은 이름에서 알 수 있듯이 다른 많은 모델보다 리소스 집약도가 낮다는 장점이 있습니다.

데이터 경쟁에서 승리의 비결을 밝히다: 200경기에서 A100의 장점을 분석하다

자연어 처리

2017년 도입된 이후 Transformer 기반 모델은 자연어 처리(NLP) 분야를 장악해 왔습니다. Transformer는 BERT와 GPT의 "T"이며 ChatGPT의 핵심이기도 합니다.

따라서 자연어 처리 대회에서 우승한 모든 솔루션의 핵심이 Transformer 기반 모델이라는 것은 놀라운 일이 아닙니다. 그것들이 모두 PyTorch에서 구현된다는 것은 놀라운 일이 아닙니다. 그들은 모두 Hugging Face의 Transformers 라이브러리를 사용하여 로드된 사전 훈련된 모델을 사용했으며 거의 모두 Microsoft Research의 DeBERTa 모델 버전(보통 deberta-v3-large)을 사용했습니다.

대다수의 컴퓨팅 리소스가 필요합니다. 예를 들어, Google AI4Code 우승자는 최종 솔루션을 위해 단일 deberta-v3-large를 교육하기 위해 약 10일 동안 A100(80GB)을 실행했습니다. 이 접근 방식은 예외입니다(단일 마스터 모델 및 고정 학습/평가 분할 사용). 다른 모든 솔루션은 앙상블 모델을 많이 사용하며 거의 모두 일종의 k-겹 교차 검증을 사용합니다. 예를 들어, Jigsaw Toxic Comments 콘테스트의 우승자는 15개 모델의 출력에 대한 가중 평균을 사용했습니다.

Transformer 기반 앙상블은 때때로 LSTM 또는 LightGBM과 함께 사용되며, 승리한 솔루션에 효과적으로 사용된 의사 라벨링의 인스턴스가 두 개 이상 있습니다.

XGBoost는 예전에는 Kaggle과 동의어였습니다. 그러나 LightGBM은 분명히 2022년 우승자가 가장 좋아하는 GBDT 라이브러리입니다. 우승자는 CatBoost와 XGBoost를 합친 것처럼 솔루션 보고서나 설문지에서 LightGBM을 여러 번 언급했고 CatBoost는 2위, XGBoost는 놀랍게도 3위를 차지했습니다.

컴퓨팅 및 하드웨어

데이터 경쟁에서 승리의 비결을 밝히다: 200경기에서 A100의 장점을 분석하다

대략 예상한 대로 대부분의 승자는 훈련에 GPU를 사용했습니다. 이는 그라디언트 부스트 트리의 훈련 성능을 크게 향상시킬 수 있으며 실제로 심층 신경망에 필요합니다. 상당수의 수상자는 고용주나 대학에서 제공하는 클러스터(종종 GPU 포함)에 액세스할 수 있습니다.

다소 놀랍게도 Google의 TPU(텐서 처리 장치)를 사용하여 성공적인 모델을 훈련한 사례는 발견되지 않았습니다. 또한 2022년 5월부터 PyTorch에서 지원해 온 Apple의 M 시리즈 칩에서 훈련된 우승 모델을 본 적이 없습니다.

Google의 클라우드 노트북 솔루션인 Colab은 무료 요금제, Pro 요금제, Pro+ 등으로 인기가 높습니다(4번째 우승자가 Colab을 사용하는 요금제는 확인할 수 없습니다).

클라우드 하드웨어보다 로컬 개인용 하드웨어가 더 인기가 높았으며, 9명의 우승자가 훈련에 사용한 GPU를 언급했지만 로컬 GPU를 사용했는지 클라우드 GPU를 사용했는지 명시하지 않았습니다.

데이터 경쟁에서 승리의 비결을 밝히다: 200경기에서 A100의 장점을 분석하다

가장 인기 있는 GPU는 최신 하이엔드 AI 가속기 카드인 NVIDIA A100(A100 40GB와 A100 80GB는 승자가 항상 둘을 구별할 수 없기 때문에 여기에 함께 포함)이며 일반적으로 사용됩니다. 여러 개의 A100 - 예를 들어 Zindi의 Turtle Recall 대회 우승자는 A100(40GB) GPU 8개를 사용했고, 다른 두 우승자는 A100 4개를 사용했습니다.

팀 구성

많은 대회에서는 팀당 최대 5명의 참가자를 허용하며, 팀은 결과 제출 마감일 전 특정 마감일까지 함께 "병합"된 개인 또는 소규모 팀으로 구성될 수 있습니다.

일부 대회에서는 더 큰 규모의 팀이 허용됩니다. 예를 들어 Waymo의 오픈 데이터 챌린지는 팀당 최대 10명까지 허용됩니다.

데이터 경쟁에서 승리의 비결을 밝히다: 200경기에서 A100의 장점을 분석하다

결론

2022 머신러닝 대회에 대한 대략적인 모습입니다. 거기에서 유용한 정보를 찾을 수 있기를 바랍니다.

2023년에는 흥미진진한 새로운 대회가 많이 열릴 예정이며, 대회가 끝나면 더 많은 통찰력을 공개할 수 있기를 기대합니다.

위 내용은 데이터 경쟁에서 승리의 비결을 밝히다: 200경기에서 A100의 장점을 분석하다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Python 架构 express 栈堆 jupyter 算法 cnn tensorflow keras lstm pytorch paddlepaddle transformer bert nlp 数据分析 gpt-3 chatgpt microsoft gpt

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.다음 기사：Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.