データ サイエンスと機械学習の人気はますます高まっています。
この分野に参入する人の数は日々増加しています。
これは、多くのデータ サイエンティストが初めて機械学習モデルを構築する際に豊富な経験がないため、間違いを犯しやすいことを意味します。
ここでは、機械学習ソリューションにおける最も一般的な初心者の間違いをいくつか紹介します。
# もちろん、ランダム ノイズには実際の信号は存在しません。ただし、十分なノイズ列がある場合は、モデルが検出されたエラー信号に基づいてそれらの一部を使用することが可能です。これが発生すると、モデル予測は部分的にランダム ノイズに基づいて行われるため、品質が低下します。
この状況に役立つ機能選択には、実際にさまざまなテクニックがあります。しかし、この記事ではそれらについては説明しません。
覚えておいてください、最も重要なことは、持っているすべての機能を説明し、この機能がモデルに役立つ理由を理解できる必要があるということです。
外挿が必要な場合はツリーベースのモデルを使用します
ツリー モデルが人気がある主な理由は、その強度だけでなく、非常に優れているためです。使用。
#ただし、それは常に実証されて真実であるとは限りません。場合によっては、ツリーベースのモデルの使用が間違いになる可能性があります。
ツリー モデルには推論機能がありません。これらのモデルは、トレーニング データに見られる最大値を超える予測値を与えることはありません。また、トレーニングでは最小値よりも小さい予測を出力することはありません。
しかし、一部のタスクでは、推定する機能が重要な役割を果たす場合があります。たとえば、このモデルを株価の予測に使用すると、将来の株価がこれまでよりも高くなる可能性があります。したがって、この場合、予測が史上最高価格に近いレベルに限定されるため、ツリーベースのモデルは適切ではなくなります。
#過剰な正規化
データ正規化の重要性は誰もがよく知っているはずです。ただし、タスクごとに必要な正規化方法が異なるため、間違った種類を選択すると、得られるものよりも失うもののほうが多くなります。
ツリーベースのモデルでは、特徴量の生の値が乗数として使用されないため、データの正規化が必要ありません。外れ値も影響しません。
ニューラル ネットワークも正規化を必要としない場合があります。たとえば、ネットワークに内部で正規化を処理するレイヤー (Keras ライブラリの BatchNormalization など) がすでに含まれている場合です。
場合によっては、線形回帰でもデータの正規化が必要ない場合があります。これは、すべての特徴が同様の値の範囲内にあり、同じ意味を持つことを意味します。たとえば、モデルが時系列データに適用され、すべての特徴が同じパラメーターの履歴値である場合です。
実際には、不必要なデータ正規化を適用しても、必ずしもモデルに悪影響を与えるわけではありません。ほとんどの場合、このような場合の結果はスキップされた正規化と非常に似ています。ただし、不必要なデータ変換を追加すると、ソリューションが複雑になり、エラーが発生するリスクが高まります。
つまり、使うか使わないかにかかわらず、実践することで本当の知識が得られます。
データ漏洩
データ漏洩は私たちが思っているよりも簡単です。
次のコード スニペットを見てください:
トレーニング/テスト セットに分割した後、トレーニング データを含む部分にはテスト行からの情報の一部が含まれるため、情報が「漏洩」します。これにより検証結果は向上しますが、実際のデータ モデルに適用するとパフォーマンスが大幅に低下します。
正しいアプローチは、最初にトレーニング/テストの分割を行うことです。その場合にのみ、特徴生成関数が適用されます。一般に、トレーニング セットとテスト セットを別々に処理するのは、優れた特徴エンジニアリング パターンです。
場合によっては、この 2 つの間で一部の情報を渡す必要があります。たとえば、トレーニング セットに使用されたものと同じ StandardScaler をテスト セットで使用する必要があり、トレーニング セットは行われた。ただし、これは単なる個別のケースであるため、特定の問題を詳細に分析する必要があります。
失敗から学ぶのは良いことです。ただし、他の人の間違いから学ぶのが最善です。この記事で提供されている間違いの例が役立つことを願っています。
以上が機械学習は天からの祝福です。データサイエンティストとKaggleマスターが「MLの落とし穴回避ガイド」をリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

訓練を受けたセラピストの人間のつながりと直観を提供することはできませんが、多くの人々は、比較的顔のない匿名のAIボットと心配や懸念を共有することを快適に共有していることが研究で示されています。 これが常に良いかどうか

数十年の技術である人工知能(AI)は、食品小売業界に革命をもたらしています。 大規模な効率性の向上とコスト削減から、さまざまなビジネス機能にわたる合理化されたプロセスまで、AIの影響はUndeniablです

それについて話しましょう。 革新的なAIブレークスルーのこの分析は、さまざまなインパクトのあるAIの複雑さを特定して説明するなど、最新のAIで進行中のForbes列のカバレッジの一部です(こちらのリンクを参照)。さらに、私のコンプのために

プロの画像を維持するには、時折ワードローブの更新が必要です。 オンラインショッピングは便利ですが、対面の試練の確実性がありません。 私の解決策? AI駆動のパーソナライズ。 衣類の選択をキュレーションするAIアシスタントが想像しています

Google Translateは言語学習機能を追加します Android Authorityによると、App Expert AssemberBugは、Google Translateアプリの最新バージョンには、パーソナライズされたアクティビティを通じてユーザーが言語スキルを向上させるように設計された新しい「実践」モードのテストコードが含まれていることを発見しました。この機能は現在、ユーザーには見えませんが、AssembleDebugはそれを部分的にアクティブにして、新しいユーザーインターフェイス要素の一部を表示できます。 アクティブ化すると、この機能は、「ベータ」バッジでマークされた画面の下部に新しい卒業キャップアイコンを追加し、「実践」機能が最初に実験形式でリリースされることを示します。 関連するポップアッププロンプトは、「あなたのために調整されたアクティビティを練習してください!」を示しています。つまり、Googleがカスタマイズされたことを意味します

MITの研究者は、AIエージェント向けに設計された画期的なWebプロトコルであるNandaを開発しています。 ネットワークエージェントと分散型AIの略であるNandaは、インターネット機能を追加することにより、人類のモデルコンテキストプロトコル(MCP)に基づいて構築され、AI Agenを可能にします

メタの最新のベンチャー:chatgptに匹敵するAIアプリ Facebook、Instagram、WhatsApp、およびThreadsの親会社であるMetaは、新しいAIを搭載したアプリケーションを立ち上げています。 このスタンドアロンアプリであるMeta AIは、OpenaiのChatGptと直接競争することを目指しています。 レバー

AIサイバー攻撃の上昇する潮をナビゲートします 最近、人類のためのCISOであるジェイソン・クリントンは、機械間通信が増殖すると、これらの「アイデンティティ」を保護するために、非人間のアイデンティティに結びついた新たなリスクを強調しました。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

ドリームウィーバー CS6
ビジュアル Web 開発ツール

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ホットトピック









