ツリーベースのモデルが依然として表形式データでの深層学習よりも優れている理由-AI-php.cn

ホームページ

テクノロジー周辺機器

ツリーベースのモデルが依然として表形式データでの深層学習よりも優れている理由

王林

Apr 08, 2023 pm 04:11 PM

ニューラルネットワークディープラーニングツリーモデル

この記事では、「なぜツリーベースのモデルが表形式データの深層学習よりも優れているのか」という論文について詳しく説明しますこの論文では、さまざまな分野の世界中の機械学習の専門家によって観察された観察について説明します。観測結果 - ツリーベースのモデルは、深層学習/ニューラルネットワークよりも表形式データの分析に優れています。

ツリーベースのモデルが依然として表形式データでの深層学習よりも優れている理由

論文に関する注意事項

この論文には多くの前処理が施されています。たとえば、欠落データの削除などはツリーのパフォーマンスを妨げる可能性がありますが、データが非常に乱雑であり、多くの特徴とディメンションが含まれている場合には、ランダムフォレストはデータ欠落の状況に最適です。 RF の堅牢性と利点により、RF は問題が発生しやすい「高度な」ソリューションよりも優れています。

ツリーベースのモデルが依然として表形式データでの深層学習よりも優れている理由

残りの作業のほとんどは非常に標準的なものです。私は個人的には、データセットの多くのニュアンスが失われる可能性があるため、あまり多くの前処理テクニックを適用するのは好きではありませんが、この論文で実行される手順は基本的に同じデータセットを生成します。ただし、最終結果を評価するときにも同じ処理方法が使用されることに注意することが重要です。

この論文では、ハイパーパラメータ調整にランダム検索も使用しています。これは業界標準でもありますが、私の経験では、ベイジアン検索の方がより広い検索空間での検索に適しています。

これを理解すると、なぜツリーベースの手法が深層学習よりも優れたパフォーマンスを発揮するのかという主要な疑問に踏み込むことができます。

1. ニューラルネットワークは滑らかすぎるソリューションになる傾向があります

これは著者が共有する最初の理由は、深層学習ニューラルネットワークがランダムフォレストと競合できない理由です。つまり、滑らかでない関数や決定境界に関しては、ニューラルネットワークは最適な適合を作成するのが困難です。ランダムフォレストは、奇妙な/ギザギザ/不規則なパターンでより効果的です。

ツリーベースのモデルが依然として表形式データでの深層学習よりも優れている理由

理由を推測すると、ニューラルネットワークで勾配が使用されている可能性があります。勾配は定義上滑らかな微分可能な検索空間に依存しているため、鋭い点といくつかのランダム関数を区別することは不可能です。したがって、進化的アルゴリズム、従来型検索、その他の基本的な概念などの AI の概念を学習することをお勧めします。これらの概念は、NN が失敗したときのさまざまな状況で素晴らしい結果につながる可能性があります。

ツリーベースのメソッド (RandomForests) とディープラーナーの間の決定境界の違いのより具体的な例については、以下の図をご覧ください -

ツリーベースのモデルが依然として表形式データでの深層学習よりも優れている理由

付録で、著者は上記の視覚化を次のように説明しています。

このパートでは、RandomForest が MLP では学習できない x 軸上の不規則なパターン (日付特徴に対応) を学習できることがわかります。学ぶ。この違いを、ニューラルネットワークの典型的な動作であるデフォルトのハイパーパラメーターで示しますが、実際には、これらのパターンを適切に学習するハイパーパラメーターを見つけるのは困難です (不可能ではありません)。

2. 有益ではない特性は、mlp のようなニューラルネットワークに影響を及ぼします。

もう 1 つの重要な要素は、特に複数の関係を同時にエンコードする大規模なデータセットにとって重要です。無関係な特徴をニューラルネットワークに供給すると、ひどい結果になります (モデルのトレーニングにより多くのリソースを無駄にすることになります)。これが、EDA/ドメイン探索に多くの時間を費やすことが非常に重要である理由です。これは機能を理解し、すべてがスムーズに実行されるようにするのに役立ちます。

論文の著者は、ランダムな機能を追加したり、不要な機能を削除したりするときのモデルのパフォーマンスをテストしました。その結果に基づいて、2 つの非常に興味深い結果が見つかりました。

多数の機能を削除すると、モデル間のパフォーマンスのギャップが減少します。これは、ツリーモデルの利点の 1 つが、特徴が有用かどうかを判断し、不要な特徴の影響を回避できることであることを明確に示しています。

データセットにランダムな特徴を追加すると、ニューラルネットワークがツリーベースの方法よりも大幅に劣化することがわかります。 ResNet は特に、これらの役に立たない特性に悩まされています。トランスの改良は、その中のアテンション機構がある程度役に立つからかもしれません。

ツリーベースのモデルが依然として表形式データでの深層学習よりも優れている理由

この現象について考えられる説明の 1 つは、デシジョンツリーの設計方法です。 AI コースを受講したことのある人なら誰でも、デシジョンツリーにおける情報ゲインとエントロピーの概念を知っているでしょう。これにより、デシジョンツリーは残りの特徴を比較して最適なパスを選択できます。

本題に戻りますが、表形式データに関しては、RF のパフォーマンスが NN より優れていることが最後に 1 つあります。それが回転不変性です。

3. NN は回転不変ですが、実際のデータはそうではありません

ニューラルネットワークは回転不変です。これは、データセットに対してローテーション操作を実行しても、パフォーマンスが変化しないことを意味します。データセットをローテーションした後、さまざまなモデルのパフォーマンスとランキングが大幅に変化しました。ResNets は常に最悪でしたが、ローテーション後も元のパフォーマンスを維持しましたが、他のすべてのモデルは大きく変化しました。

ツリーベースのモデルが依然として表形式データでの深層学習よりも優れている理由

これは非常に興味深いです: データセットを回転するとは、具体的には何を意味しますか? 論文全体には詳細な説明がありません (著者に連絡しましたので、フォローアップします)この現象）。ご意見がございましたら、コメント欄で共有してください。

しかし、この操作により、回転の分散がなぜ重要なのかがわかります。著者らによれば、特徴の線形結合 (これが ResNets を不変にする理由です) を採用すると、実際には特徴とその関係が誤って表現される可能性があります。

元のデータをエンコードして最適なデータバイアスを取得すると、非常に異なる統計的特性を持つ特徴が混在する可能性があり、回転不変モデルでは回復できないため、モデルのパフォーマンスが向上します。

概要

これは非常に興味深い論文です。深層学習はテキストや画像のデータセットでは大きな進歩を遂げましたが、基本的に表形式のデータではまったく利点がありません。この論文では、さまざまなドメインからの 45 のデータセットをテストに使用しており、その結果は、その優れた速度を考慮しなくても、中程度のデータ (約 10,000 サンプル) ではツリーベースのモデルが依然として最先端であることを示しています。

以上がツリーベースのモデルが依然として表形式データでの深層学習よりも優れている理由の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

迅速なエンジニアリングにおける思考のグラフは何ですかApr 13, 2025 am 11:53 AM

導入迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

Genaiエージェントとの電子メールマーケティングを組織に最適化しますApr 13, 2025 am 11:44 AM

導入おめでとう！あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apr 13, 2025 am 11:40 AM

導入今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

ChatGptは10億人のユーザーにヒットしますか？「わずか数週間で2倍になりました」とOpenai CEOは言いますApr 13, 2025 am 11:23 AM

「ユーザーは何人いますか？」彼は突き出した。「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。「わずか数週間で2倍になったと言った」とアンダーソンは続けた。「私はそのprivと言いました

PIXTRAL -12B：Mistral AI＆＃039;の最初のマルチモーダルモデル-Analytics VidhyaApr 13, 2025 am 11:20 AM

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか？これで、画像とTexの両方を採用できます

生成AIアプリケーションのエージェントフレームワーク - 分析VidhyaApr 13, 2025 am 11:13 AM

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか？これでa

金融セクターにおける生成AIの応用Apr 13, 2025 am 11:12 AM

導入金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

オンライン学習とパッシブアグレッシブアルゴリズムのガイドApr 13, 2025 am 11:09 AM

導入データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

ドリームウィーバー CS6

ビジュアル Web 開発ツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。