検索

ホームページ  >  に質問  >  本文

python - sklearnが大規模なデータセットをトレーニングする方法

質問 1:

現在、400,000 個を超えるデータがあり、ある種の機械学習分類アルゴリズムを使用して、このデータのモデルを構築する必要があります。私が直面した問題は、データが大きすぎてモデルを構築できないことです。一度に読むことができるので、データの処理方法を知りたいですか?

###質問2:###

sklearn 相互検証について質問があります。10,000 個のトレーニング データがある場合、これらの 10,000 個のトレーニング データ セットは、相互検証原理 (トレーニング データ) に基づいて KFold メソッドを使用して n 個のトレーニング グループに分割できます。ここで理解できないのは、最初のグループのトレーニング セットを fit() してから、テスト セットに対して予測検証を実行して予測精度を取得したことです。しかし、予測を取得することは何の役に立つのでしょうか?正確さ?次回のトレーニングに影響はありますか?また、最後にトレーニングされたモデルは次の fit() 関数で使用されますか?

typechotypecho2704日前1094

全員に返信(3)返信します

  • 三叔

    三叔2017-06-28 09:24:17

    最近、ビッグデータのデータマイニングと分析について勉強しています。質問1に関して、一度に読み込むことができないので、分散データモデルを構築し、データをバッチで読み込んで判断することができます。アドレスのdatanode(変数名でも可)、namenode(名前とアドレスに対応するテーブル)を作成し、データを取得する際には、まずnamenode内のアドレス(どの変数がどのデータに対応しているのか)を確認します。必要)を取得し、そのアドレスにアクセスしてデータを取得します。初心者なので、個人的な意見を述べているだけなので、参考程度にしてください。気に入らない場合は批判しないでください。

    返事
    0
  • 仅有的幸福

    仅有的幸福2017-06-28 09:24:17

    400,000 は多くなく、せいぜい数ギガバイトです...
    メモリが実際に 8G ほど小さい場合でも、たとえば、単純に tf-idf、1 つのジェネレーター、最後の tf のみをカウントするだけで、特定のシナリオに依存します。 -idf 辞書はメモリ内にあります。

    相互検証は、誤差が最も小さいものを選択することです。先ほど述べた影響の背後には、ブースティングの概念があります。

    返事
    0
  • 仅有的幸福

    仅有的幸福2017-06-28 09:24:17

    この種の Q&A ウェブサイトでは、質問が 1 つとピットが 1 つであることが最善であり、必要に応じて 2 つの別々の質問を使用してリンクを接続し、二重構造の質問を避けることができます。

    (1) 「速度を最適化する方法」を参照すると、(a) できるだけ単純なアルゴリズムを使用する (b) 実際の状況に基づいてメモリ使用量と速度をプロファイリングするなど、実験を制御する多くの方法があることがわかります。 c) すべてのネストされたループを Numpy 配列に置き換えてみます。 (d) 必要に応じて Cython Wrapper を使用して、より効率的な C/C++ 関数ライブラリを調整します。これらは単なる基本的な原則と方向性です。実際には、コードを最適化した後、並列コンピューティングや他の方法を使用するかどうかは、操作したい問題のボトルネック分析に依存します。

    (2) あなたの質問は数学的要件と経験的要件を区別する必要があります。ここでの質問と回答は非常に役立ちます。

    返事
    0
  • キャンセル返事