機械学習は天からの祝福です。データサイエンティストとKaggleマスターが「MLの落とし穴回避ガイド」をリリース-AI-php.cn

ホームページ

テクノロジー周辺機器

機械学習は天からの祝福です。データサイエンティストとKaggleマスターが「MLの落とし穴回避ガイド」をリリース

PHPz

Apr 12, 2023 pm 08:40 PM

機械学習解決

データサイエンスと機械学習の人気はますます高まっています。

この分野に参入する人の数は日々増加しています。

これは、多くのデータサイエンティストが初めて機械学習モデルを構築する際に豊富な経験がないため、間違いを犯しやすいことを意味します。

ここでは、機械学習ソリューションにおける最も一般的な初心者の間違いをいくつか紹介します。

機械学習は天からの祝福です。データサイエンティストとKaggleマスターが「MLの落とし穴回避ガイド」をリリース

#データ正規化は必要な場合には使用されません

はい初心者向けに、特徴をモデルに入れて、予測が行われるのを待つのは簡単なことのように思えるかもしれません。

ただし、場合によっては、非常に重要な手順を見逃したため、残念な結果になる可能性があります。

機械学習は天からの祝福です。データサイエンティストとKaggleマスターが「MLの落とし穴回避ガイド」をリリース

線形回帰、従来のニューラルネットワークなど、特定の種類のモデルではデータの正規化が必要です。これらのタイプのモデルは、トレーニングされた重みを乗算した特徴値を使用します。特徴が正規化されていない場合、ある特徴の可能な値の範囲が別の特徴の可能な値の範囲と大きく異なることが発生する可能性があります。

一方の特徴の値が [0, 0.001] の範囲内にあり、もう一方の特徴の値が [100000, 200000] の範囲内にあると仮定します。 2 つの特徴が同等に重要であるモデルの場合、最初の特徴の重みは 2 番目の特徴の重みの 100,000,000 倍になります。重みが大きいと、モデルに重大な問題が発生する可能性があります。たとえば、外れ値がいくつかあります。

さらに、重みが大きいとその特徴が重要であることを意味する場合もあれば、単に値が小さいことを意味する場合もあるため、さまざまな特徴の重要性を推定することは非常に困難になる可能性があります。

正規化後、すべての特徴は同じ値の範囲内 (通常は [0, 1] または [-1, 1]) 内になります。この場合、重みは同様の範囲内になり、各特徴の真の重要性に密接に対応します。

全体として、必要に応じてデータ正規化を使用すると、より適切で正確な予測が得られます。

機能は多ければ多いほど良いと考えてください

モデルが自動的に最適な機能を選択して使用するため、機能は多ければ多いほど良いと考える人もいるかもしれません。。

実際には、これは当てはまりません。ほとんどの場合、慎重に設計され選択された機能を備えたモデルは、10 倍の機能を備えた同様のモデルよりも大幅に優れたパフォーマンスを発揮します。

モデルの特徴が増えるほど、過剰適合のリスクが高くなります。完全にランダムなデータであっても、モデルはいくつかの信号 (場合によっては弱い場合もあれば、場合によっては強い場合もあります) を見つけることができます。

機械学習は天からの祝福です。データサイエンティストとKaggleマスターが「MLの落とし穴回避ガイド」をリリース

# もちろん、ランダムノイズには実際の信号は存在しません。ただし、十分なノイズ列がある場合は、モデルが検出されたエラー信号に基づいてそれらの一部を使用することが可能です。これが発生すると、モデル予測は部分的にランダムノイズに基づいて行われるため、品質が低下します。

この状況に役立つ機能選択には、実際にさまざまなテクニックがあります。しかし、この記事ではそれらについては説明しません。

覚えておいてください、最も重要なことは、持っているすべての機能を説明し、この機能がモデルに役立つ理由を理解できる必要があるということです。

外挿が必要な場合はツリーベースのモデルを使用します

ツリーモデルが人気がある主な理由は、その強度だけでなく、非常に優れているためです。使用。

機械学習は天からの祝福です。データサイエンティストとKaggleマスターが「MLの落とし穴回避ガイド」をリリース

#ただし、それは常に実証されて真実であるとは限りません。場合によっては、ツリーベースのモデルの使用が間違いになる可能性があります。

ツリーモデルには推論機能がありません。これらのモデルは、トレーニングデータに見られる最大値を超える予測値を与えることはありません。また、トレーニングでは最小値よりも小さい予測を出力することはありません。

しかし、一部のタスクでは、推定する機能が重要な役割を果たす場合があります。たとえば、このモデルを株価の予測に使用すると、将来の株価がこれまでよりも高くなる可能性があります。したがって、この場合、予測が史上最高価格に近いレベルに限定されるため、ツリーベースのモデルは適切ではなくなります。

機械学習は天からの祝福です。データサイエンティストとKaggleマスターが「MLの落とし穴回避ガイド」をリリース

#では、この問題を解決するにはどうすればよいでしょうか?

実際、すべての道はローマに通じています。

1 つのオプションは、値を直接予測するのではなく、変化や差異を予測することです。

もう 1 つの解決策は、線形回帰や外挿可能なニューラルネットワークなど、そのようなタスクに別のモデルタイプを使用することです。

#過剰な正規化

データ正規化の重要性は誰もがよく知っているはずです。ただし、タスクごとに必要な正規化方法が異なるため、間違った種類を選択すると、得られるものよりも失うもののほうが多くなります。

機械学習は天からの祝福です。データサイエンティストとKaggleマスターが「MLの落とし穴回避ガイド」をリリース

ツリーベースのモデルでは、特徴量の生の値が乗数として使用されないため、データの正規化が必要ありません。外れ値も影響しません。

ニューラルネットワークも正規化を必要としない場合があります。たとえば、ネットワークに内部で正規化を処理するレイヤー (Keras ライブラリの BatchNormalization など) がすでに含まれている場合です。

機械学習は天からの祝福です。データサイエンティストとKaggleマスターが「MLの落とし穴回避ガイド」をリリース

場合によっては、線形回帰でもデータの正規化が必要ない場合があります。これは、すべての特徴が同様の値の範囲内にあり、同じ意味を持つことを意味します。たとえば、モデルが時系列データに適用され、すべての特徴が同じパラメーターの履歴値である場合です。

実際には、不必要なデータ正規化を適用しても、必ずしもモデルに悪影響を与えるわけではありません。ほとんどの場合、このような場合の結果はスキップされた正規化と非常に似ています。ただし、不必要なデータ変換を追加すると、ソリューションが複雑になり、エラーが発生するリスクが高まります。

つまり、使うか使わないかにかかわらず、実践することで本当の知識が得られます。

データ漏洩

データ漏洩は私たちが思っているよりも簡単です。

次のコードスニペットを見てください:

機械学習は天からの祝福です。データサイエンティストとKaggleマスターが「MLの落とし穴回避ガイド」をリリース

##実際には、「 sum_feature 」と「diff_feature」はどちらも正しくない特徴です。

トレーニング/テストセットに分割した後、トレーニングデータを含む部分にはテスト行からの情報の一部が含まれるため、情報が「漏洩」します。これにより検証結果は向上しますが、実際のデータモデルに適用するとパフォーマンスが大幅に低下します。

正しいアプローチは、最初にトレーニング/テストの分割を行うことです。その場合にのみ、特徴生成関数が適用されます。一般に、トレーニングセットとテストセットを別々に処理するのは、優れた特徴エンジニアリングパターンです。

場合によっては、この 2 つの間で一部の情報を渡す必要があります。たとえば、トレーニングセットに使用されたものと同じ StandardScaler をテストセットで使用する必要があり、トレーニングセットは行われた。ただし、これは単なる個別のケースであるため、特定の問題を詳細に分析する必要があります。

機械学習は天からの祝福です。データサイエンティストとKaggleマスターが「MLの落とし穴回避ガイド」をリリース

失敗から学ぶのは良いことです。ただし、他の人の間違いから学ぶのが最善です。この記事で提供されている間違いの例が役立つことを願っています。

以上が機械学習は天からの祝福です。データサイエンティストとKaggleマスターが「MLの落とし穴回避ガイド」をリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIセラピストがここにいます：あなたが知る必要がある14の画期的なメンタルヘルスツールApr 30, 2025 am 11:17 AM

訓練を受けたセラピストの人間のつながりと直観を提供することはできませんが、多くの人々は、比較的顔のない匿名のAIボットと心配や懸念を共有することを快適に共有していることが研究で示されています。これが常に良いかどうか

食料品の通路にAIを呼びますApr 30, 2025 am 11:16 AM

数十年の技術である人工知能（AI）は、食品小売業界に革命をもたらしています。大規模な効率性の向上とコスト削減から、さまざまなビジネス機能にわたる合理化されたプロセスまで、AIの影響はUndeniablです

あなたの精神を持ち上げるために生成的なAIからPEPの話をするApr 30, 2025 am 11:15 AM

それについて話しましょう。革新的なAIブレークスルーのこの分析は、さまざまなインパクトのあるAIの複雑さを特定して説明するなど、最新のAIで進行中のForbes列のカバレッジの一部です（こちらのリンクを参照）。さらに、私のコンプのために

AI駆動のハイパーパーソナリゼーションがすべてのビジネスにとって必須である理由Apr 30, 2025 am 11:14 AM

プロの画像を維持するには、時折ワードローブの更新が必要です。オンラインショッピングは便利ですが、対面の試練の確実性がありません。私の解決策？ AI駆動のパーソナライズ。衣類の選択をキュレーションするAIアシスタントが想像しています

Duolingoを忘れてください：Google Translateの新しいAI機能は言語を教えていますApr 30, 2025 am 11:13 AM

Google Translateは言語学習機能を追加します Android Authorityによると、App Expert AssemberBugは、Google Translateアプリの最新バージョンには、パーソナライズされたアクティビティを通じてユーザーが言語スキルを向上させるように設計された新しい「実践」モードのテストコードが含まれていることを発見しました。この機能は現在、ユーザーには見えませんが、AssembleDebugはそれを部分的にアクティブにして、新しいユーザーインターフェイス要素の一部を表示できます。アクティブ化すると、この機能は、「ベータ」バッジでマークされた画面の下部に新しい卒業キャップアイコンを追加し、「実践」機能が最初に実験形式でリリースされることを示します。関連するポップアッププロンプトは、「あなたのために調整されたアクティビティを練習してください！」を示しています。つまり、Googleがカスタマイズされたことを意味します

彼らはAIのためにTCP/IPを作成しており、Nandaと呼ばれていますApr 30, 2025 am 11:12 AM

MITの研究者は、AIエージェント向けに設計された画期的なWebプロトコルであるNandaを開発しています。ネットワークエージェントと分散型AIの略であるNandaは、インターネット機能を追加することにより、人類のモデルコンテキストプロトコル（MCP）に基づいて構築され、AI Agenを可能にします

プロンプト：Deepfake Detectionは活況を呈しているビジネスですApr 30, 2025 am 11:11 AM

メタの最新のベンチャー：chatgptに匹敵するAIアプリ Facebook、Instagram、WhatsApp、およびThreadsの親会社であるMetaは、新しいAIを搭載したアプリケーションを立ち上げています。このスタンドアロンアプリであるMeta AIは、OpenaiのChatGptと直接競争することを目指しています。レバー

ビジネスリーダーのためのAIサイバーセキュリティでの次の2年間Apr 30, 2025 am 11:10 AM

AIサイバー攻撃の上昇する潮をナビゲートします最近、人類のためのCISOであるジェイソン・クリントンは、機械間通信が増殖すると、これらの「アイデンティティ」を保護するために、非人間のアイデンティティに結びついた新たなリスクを強調しました。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

ドリームウィーバー CS6

ビジュアル Web 開発ツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。