データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点-AI-php.cn

ホームページ

テクノロジー周辺機器

データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点

PHPz

Apr 21, 2023 pm 07:55 PM

データコンテスト

2022 年は AI にとってもデータコンテストにとっても重要な年であり、すべてのプラットフォームの賞金総額は 500 万ドルを超えています。

最近、機械学習競争分析プラットフォーム ML Contests は、2022 年のデータ競争に関する大規模な統計を実施しました。新しいレポートでは、2022 年の注目すべき出来事をすべて概観しています。以下は原文を編集したものです。

ハイライト:

合格者向けのツールの選択: Python、Pydata、Pytorch、勾配ブーストデシジョンツリー。
ディープラーニングはまだ勾配ブーストデシジョンツリーに取って代わられていませんが、ブースティング手法を理解すると、前者の価値が高まることがよくあります。
トランスフォーマーは引き続き NLP を支配しており、コンピュータービジョンにおいて畳み込みニューラルネットワークと競合し始めています。
今日のデータコンテストは、コンピュータービジョン、NLP、データ分析、ロボット工学、時系列分析など、幅広い研究分野をカバーしています。
成功するソリューションでは依然として大規模アンサンブルモデルが一般的であり、一部の単一モデルソリューションも成功する可能性があります。
活発なデータ競争プラットフォームが複数あります。
データ競争コミュニティは、学界を含めて成長を続けています。
優勝者の約 50% は 1 人チームであり、優勝者の 50% は初めての優勝者です。
ハイエンドのハードウェアを使用している人もいますが、Google Colab のような無料のリソースでも勝てる可能性があります。

コンテストとトレンド

賞金が最も高額なコンテストは、米国開拓局が主催する Drivendata の Snow Cast Showdown Contest です。参加者は賞金 50 万ドルを受け取り、西部のさまざまな地域の正確な雪水流量推定値を提供することで、給水管理の改善に貢献することを目的としています。いつものように、Drivendata はこの対戦について詳細な記事を書き、詳細な解決策レポートを掲載しているので、一読の価値があります。

2022 年に最も人気のあるコンテストは、顧客がローンを返済するかどうかを予測することを目的とした Kaggle の American Express Default Prediction コンテストです。 4,000 チーム以上が参加し、賞金 10 万ドルが上位 4 チームに分配されました。今年初めて、ニューラルネットワークと LightGBM モデルのアンサンブルを使用した 1 人チームが初エントリーを獲得しました。

最大の独立系コンテストはスタンフォード大学の AI Audit Challenge で、最高の「モデル、ソリューション、データセット、ツール」に 71,000 ドルの賞金が与えられます。「違法な差別的AI審査システム」について。

財務予測に基づく 3 つのコンテストはすべて Kaggle 上にあります。JPX の東京証券取引所の予測、Ubiquant の市場予測、G-Research の仮想通貨の予測です。

さまざまな方向で比較すると、コンピュータービジョンが最も高い割合を占め、NLP が 2 位にランクされ、逐次的意思決定問題 (強化学習) が増加しています。 Kaggle は、2020 年にシミュレーションコンペティションを導入することで、この人気の高まりに応えました。 Aicrowd は強化学習コンテストも多数主催しています。 2022 年には、これらのインタラクティブイベントのうち 25 件の総額が 30 万ドルを超えました。

NeurIPS 2022 の公式競技会リアルロボットチャレンジでは、参加者は 3 本指ロボットを制御して立方体を目標位置に移動したり、空間内の特定の点に配置したりする方法を学ばなければなりません。そして正しい方向を向いてください。参加者の戦略は毎週物理ロボット上で実行され、結果はリーダーボードで更新されます。この賞は賞金 5,000 ドルと、NeurIPS シンポジウムでの講演という学術的栄誉に与えられます。

プラットフォーム

Kaggle と Tianchi はよく知られていますが、現在、活発なエコシステムを形成する機械学習の競争プラットフォームが多数存在します。

下の図は、2022 年のプラットフォームの比較を示しています。

データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点

いくつか挙げてください。例:

Kaggle は最も確立されたプラットフォームの 1 つで、2017 年に Google に買収され、最大のコミュニティを持ち、最近では 1,000 万人のユーザーを魅了しています。 Kaggle で賞金付きのコンテストを開催すると、非常に費用がかかる場合があります。 Kaggle では、コンテストの主催に加えて、ユーザーがデータセット、ノート、モデルをホストすることもできます。
Codalab は、パリ大学サクレー校によって管理されているオープンソースの競争プラットフォームです。誰でもコンテストに登録、主催、参加できます。推論用に無料の CPU リソースを提供し、競技会の主催者は独自のハードウェアでそれを補うことができます。
Zindi は、アフリカの機関とデータサイエンティストを結び付けることに重点を置いた、非常に活発なコミュニティを持つ小規模なプラットフォームです。 Drivendata は社会的影響力のあるコンテストに重点を置き、NASA やその他の組織向けにコンテストを開発しました。コンテストの後には常に詳細な調査レポートが提出されます。
Aicrowd はスイス連邦工科大学 (EPFL) の研究プロジェクトとしてスタートし、現在では上位 5 つの競争プラットフォームの 1 つとなっています。いくつかの公式 NeurIPS コンテストが開催されます。

データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点

学術界

コンテストの賞金のほとんどは、産業界の大規模なプラットフォームで運営されています。しかし、イザベル・ガイヨン氏が今年の NeurIPS 招待講演で論じたように、機械学習コンテストには明らかに学界においてより豊かな歴史があります。

NeurIPS は、世界で最も権威のある学術機械学習カンファレンスの 1 つです。このカンファレンスでは、AlexNet、GAN、Transformer など、過去 10 年間の最も重要な機械学習論文が頻繁に発表されます。そしてGPT-3。

NeurIPS は、2014 年に初めて機械学習におけるデータチャレンジ (CIML) ワークショップを開催し、2017 年からはコンペティションコンポーネントを開催しています。それ以来、競争と賞金総額は増え続け、2022 年 12 月には 40 万ドル近くに達しました。

CVPR、ICPR、IJCAI、ICRA、ECCV、PCIC、AutoML など、他の機械学習カンファレンスでもコンテストが開催されます。

賞金

すべての機械学習コンテストの約半数には、賞金総額が 10,000 ドルを超えています。多くの興味深いコンテストには少額の賞が設けられていることに疑いの余地はなく、このレポートでは賞金や学術的栄誉のあるコンテストのみを対象としています。多くの場合、権威ある学術会議に関連したデータコンテストでは、優勝者に会議に出席するための交通費が支給されます。

一部のトーナメントプラットフォームは他のトーナメントプラットフォームよりも平均して賞金プールが大きい傾向がありますが (プラットフォーム比較表を参照)、多くのプラットフォームは 2022 年の非常に大きなコンテストで少なくとも 1 つの賞金プールを主催しています。賞金総額のトップ 10 コンテストには、DrivenData、Kaggle、CodaLab、AIcrowd で開催されたコンテストが含まれます。

勝利する方法

この調査では、アンケートとコード観察を通じて、勝利アルゴリズムで使用されているテクニックを分析します。

まったく一貫して、コンテストの勝者が選んだ言語は Python でしたが、これは人々にとって予想外の結果ではないかもしれません。 Python を使用するユーザーのうち、約半数は主に Jupyter Notebook を使用し、残りの半数は標準の Python スクリプトを使用します。

データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点

主に R を使用した勝利のソリューションは次のとおりです: Amir Ghazi が Kaggle で勝利し、2022 年のアメリカ男子大学バスケットボールトーナメントの優勝者を予測しましたゲーム。彼は、Kaggle グランドマスターである Darius Barušauskas が作成した 2018 年のコンテストで優勝したソリューションのコードを使用して (明らかにそのままコピーして) これを実行しました。信じられないことに、ダリウスは2022年にもこのレースに出場し、新たなアプローチを用いて593位でフィニッシュした。

受賞者が使用した Python パッケージ

受賞ソリューションで使用されたパッケージを見ると、結果は、すべての受賞者が Python をある程度 PyData スタックを使用していることを示しました。

最も人気のあるソフトウェアパッケージは、コアツールキット、NLP カテゴリ、およびコンピュータービジョンカテゴリの 3 つのカテゴリに分類されます。

データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点

その中でも、ディープラーニングフレームワーク PyTorch の成長は安定しており、2021 年から 2022 年にかけての飛躍は非常に明白です。勝利のソリューションであることが 77% から 96% に増加しました。

ディープラーニングを使用した受賞ソリューション 46 件のうち、44 件は主要なフレームワークとして PyTorch を使用し、TensorFlow を使用したのは 2 件だけでした。さらに顕著なのは、TensorFlow を使用して優勝した 2 つのコンテストのうちの 1 つである Kaggle のグレートバリアリーフコンペティションでは、TensorFlow を使用した優勝チームに追加の賞金 50,000 ドルが提供されているということです。 TensorFlow を使用して優勝した別のコンテストでは、高レベルの Keras API が使用されていました。

データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点

pytorch-lightning を使用した勝者が 3 名、fastai を使用した勝者が 1 名でしたが、両方とも上記の PyTorch 上に構築されましたが、大多数の人は PyTorch を直接使用します。

少なくともデータ競争においては、PyTorch が機械学習フレームワークの戦いに勝利したと言えるかもしれません。これは、より広範な機械学習研究の傾向と一致しています。

注目すべきことに、JAX (Google が構築し DeepMind が使用)、PaddlePaddle (Baidu が開発)、MindSpore (ファーウェイが開発）。

コンピュータビジョン

ツールは世界を支配する傾向がありますが、テクノロジーはそうではありません。 CVPR 2022 では、ConvNext アーキテクチャが「2020 年代の ConvNet」として紹介され、最近の Transformer ベースのモデルを上回るパフォーマンスを発揮することが証明されました。 CNN は、少なくとも 2 つのコンペティションで優勝したコンピュータービジョンソリューションで使用されており、全体として、現在に至るまでコンピュータービジョンコンペティションの勝者の間で最も人気のあるニューラルネットワークアーキテクチャであり続けています。

データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点

#コンピュータビジョンは、ImageNet などの公開データセットでの事前トレーニング済みモデルの使用における言語モデリングと非常に似ています。）で訓練されたわかりやすいアーキテクチャ。最も人気のあるリポジトリは Hugging Face Hub で、timm を通じてアクセスでき、数十の異なるコンピュータービジョンモデルの事前トレーニング済みバージョンをロードするのが非常に便利です。

事前トレーニングされたモデルを使用する利点は明らかです。現実世界の画像と人間が生成したテキストにはいくつかの共通の特徴があり、事前トレーニングされたモデルを使用すると、同様の常識的な知識を得ることができます。 to Yu は、より大規模でより一般的なトレーニングデータセットを使用しました。

通常、事前トレーニングされたモデルは、タスク固有のデータ (競技主催者によって提供されるデータなど) に基づいて微調整され、さらにトレーニングされますが、常にそうとは限りません。イメージマッチングチャレンジの優勝者は、微調整をまったく行わずに事前トレーニングされたモデルを使用しました。「このコンテストではトレーニングデータとテストデータの (異なる) 品質のため、提供されたトレーニングを使用して微調整しませんでした。あまり効果的ではないと思いました。」この決断は功を奏しました。

これまでのところ、2022 年の受賞者の中で最も人気のある事前トレーニング済みコンピュータービジョンモデルタイプは EfficientNet で、その名前が示すように、他の多くのモデルよりもリソースの消費が少ないという利点があります。モデル。

データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点

自然言語処理

トランスフォーマーベースのモデルは、2017 年の開始以来、自然言語処理の主流を占めてきました。言語処理 (NLP) の分野。 Transformer は BERT と GPT の「T」であり、ChatGPT の中核でもあります。

したがって、自然言語処理コンテストで優勝したすべてのソリューションの中核に Transformer ベースのモデルがあることは驚くべきことではありません。それらがすべて PyTorch で実装されていることは驚くべきことではありません。これらはすべて、Hugging Face の Transformers ライブラリを使用して読み込まれた事前トレーニング済みモデルを使用し、ほとんどすべてが Microsoft Research の DeBERTa モデル (通常は deberta-v3-large) バージョンを使用していました。

それらの多くは、大量のコンピューティングリソースを必要とします。たとえば、Google AI4Code の勝者は、A100 (80GB) を約 10 日間実行して、最終ソリューション用に単一の deberta-v3-large をトレーニングしました。このアプローチは例外です (単一マスターモデルと固定トレイン/評価分割を使用)。他のすべてのソリューションではアンサンブルモデルが多用され、ほとんどすべてのソリューションで何らかの形式の k 分割相互検証が使用されます。たとえば、Jigsaw Toxic Comments コンテストの優勝者は、15 のモデルの出力の加重平均を使用しました。

Transformer ベースのアンサンブルは、LSTM または LightGBM と組み合わせて使用されることがあります。また、優れたソリューションに効果的に使用された疑似ラベル付けのインスタンスが少なくとも 2 つあります。

XGBoost はかつて Kaggle の代名詞でした。ただし、LightGBM が 2022 年の勝者にとってお気に入りの GBDT ライブラリであることは明らかです。勝者は、CatBoost と XGBoost を合わせた数と同じくらい多くの回数、ソリューションレポートやアンケートで LightGBM について言及し、CatBoost が 2 位となり、XGBoost は驚くべきことに 3 位にランクされました。

コンピューティングとハードウェア

データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点

##大まかに予想したように、ほとんどの勝者はトレーニングに GPU を使用しました。勾配ブーストツリーのトレーニングパフォーマンスを向上させるもので、ディープニューラルネットワークには実際に必要です。かなりの数の受賞者が、雇用主または大学が提供するクラスター (GPU を含む) にアクセスできます。

やや意外なことに、Google のテンソル処理ユニットである TPU を使用して勝利モデルをトレーニングした例は見つかりませんでした。また、2022 年 5 月から PyTorch でサポートされている Apple の M シリーズチップでトレーニングされた優勝モデルも見つかりませんでした。

Google のクラウドノートブックソリューション Colab は人気があり、無料プランで 1 名、Pro プランで 1 名、Pro でもう 1 名が優勝しました (4 番目の優勝者は確認できません)。 Colab で使用されるパッケージ)。

ローカルのパーソナルハードウェアはクラウドハードウェアよりも人気があり、9 人の受賞者がトレーニングに使用した GPU について言及しましたが、ローカル GPU とクラウド GPU のどちらを使用したかは明らかにしませんでした。

データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点

#最も人気のある GPU は、最新のハイエンド AI アクセラレータカード NVIDIA A100 (ここでは、A100 40GB と A100 80GB です)たとえば、Zindi の Turtle Recall コンテストの優勝者は 8 つの A100 (40GB) GPU を使用し、他の 2 つの優勝者は 4 つの A100 を使用しました。

チーム編成

多くのコンテストでは、1 チームあたり最大 5 人の参加者が許可されており、チームは結果提出期限前の時点で個人またはより小規模なチームで構成できます。チームを「統合」します。締め切り前に一緒に。

一部の競技会では、より大規模なチームが参加できます。たとえば、Waymo のオープンデータチャレンジでは、1 チームあたり最大 10 人が参加できます。

データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点 #結論

これは、2022 年の機械学習コンペティションの大まかな概要です。役立つ情報が見つかることを願っています。

2023 年には多くのエキサイティングな新しいコンテストが予定されており、その終了に合わせてさらに詳しい情報を公開できることを楽しみにしています。

以上がデータ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIインデックス2025を読む：AIはあなたの友人、敵、または副操縦士ですか？Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう：認知（何が起こっているのかを理解する）、感謝（利益を見る）、受け入れ（顔の課題）、責任（責任を見つける）。認知：人工知能はどこにでもあり、急速に発展しています私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

Meta Llama 3.2を始めましょう - 分析VidhyaApr 11, 2025 pm 12:04 PM

メタのラマ3.2：マルチモーダルとモバイルAIの前進メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。成功に基づいてo

AVバイト：Meta＆＃039; s llama 3.2、GoogleのGemini 1.5などApr 11, 2025 pm 12:01 PM

今週のAIの風景：進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

マシンと話すための人的費用：チャットボットは本当に気にすることができますか？Apr 11, 2025 pm 12:00 PM

つながりの慰めの幻想：私たちはAIとの関係において本当に繁栄していますか？この質問は、MIT Media Labの「AI（AHA）で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

PythonのScipy Libraryの理解Apr 11, 2025 am 11:57 AM

導入あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

ラマ3.2を実行する3つの方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

メタのラマ3.2：マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。その能力t

Dagsterでデータ品質チェックを自動化しますApr 11, 2025 am 11:44 AM

データ品質保証：ダグスターと大きな期待でチェックを自動化するデータ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

メインフレームはAI時代に役割を果たしていますか？Apr 11, 2025 am 11:42 AM

MainFrames：AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。これらの強力なシステムは、頻繁にヘビルで見られます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、