ホームページ  >  記事  >  テクノロジー周辺機器  >  機械学習の初心者によくある 5 つの質問

機械学習の初心者によくある 5 つの質問

王林
王林転載
2023-04-12 17:34:141295ブラウズ

欠損値の処理

機械学習の初心者によくある 5 つの質問

機械学習モデルは入力として NaN 値を受け入れないため、データの前処理では欠損データを処理することが重要な手順になります。これらの NaN 値を埋める方法はたくさんありますが、まず欠損値の重要性を理解する必要があります。

非常に簡単な方法は、機械学習データセットからすべての欠損値を削除することですが、その前に、機械学習データセットに表示される NaN 値の全体的な割合を確認します。 1% 未満の場合は、すべての欠損値を削除できます。そうでない場合は、中心傾向測定、KNN インピューターなどの他の方法を選択してデータを補完する必要があります。

特徴量で数値を使用する場合は、平均値または中央値を使用します。平均は、行内のすべての値を合計し、その量で割ることによって計算できる平均値です。中央値も平均を表し、データをサイズ順に並べてシーケンスを形成し、シーケンスの中央のデータになります。データ セット内の個々のデータが大きく異なる場合、データ セットの中心的な傾向を説明するために中央値がよく使用されます。

機械学習データセットに偏った分布がある場合は、多くの場合、平均よりも中央値を使用する方が適切です。

外れ値/異常値

外れ値は、他の観測値と大きく異なるデータ ポイントです。場合によっては、これらの外れ値が敏感になることもあります。外れ値に対処する前に、機械学習データセットを調べることをお勧めします。

例:

  • 外れ値は、観測された降雨量に基づく深さの値の予測において重要です。
  • 住宅価格予測における異常値には意味がありません。

データ漏洩

機械学習モデルにおけるデータ漏洩問題とは何ですか?

データ漏洩は、機械学習モデルのトレーニングに使用するデータに、機械学習モデルが予測しようとしている情報が含まれている場合に発生します。これにより、モデルのデプロイ後に信頼性の低い予測結果が生じる可能性があります。

この問題は、データの標準化または正規化方法が原因で発生する可能性があります。なぜなら、私たちのほとんどは、データをトレーニング セットとテスト セットに分割する前に、これらの方法を使い続けているからです。

適切な機械学習モデルを選択する

リアルタイムでは、不必要に複雑なモデルに頼ると、ビジネス指向の人々にとって解釈性に問題が生じる可能性があると感じています。たとえば、線形回帰はニューラル ネットワーク アルゴリズムよりも解釈が簡単です。

主にデータセットのサイズと複雑さに基づいて、対応する機械学習モデルを選択します。複雑な問題に対処する場合は、SVN、KNN、ランダム フォレストなどの効率的な機械学習モデルを使用できます。 。

ほとんどの場合、データ探索フェーズは、対応する機械学習モデルの選択に役立ちます。視覚化においてデータが線形分離可能である場合は、線形回帰を使用できます。データについて何も知らない場合は、サポート ベクター マシンと KNN が役立ちます。

モデルの解釈可能性の問題もあります。たとえば、線形回帰はニューラル ネットワーク アルゴリズムよりも説明が簡単です。

検証メトリクス

メトリクスは、モデル予測子と実際のデータの定量的な尺度です。質問が回帰の場合、重要な指標は精度 (R2 スコア)、MAE (平均絶対誤差)、および RMSE (二乗平均平方根誤差) です。分類問題の場合、重要な指標は適合率、再現率、F1 スコア、および混同行列です。


以上が機械学習の初心者によくある 5 つの質問の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。