実際の問題を解決できる限り、データ マイニングの学習にどのツールを使用するかは関係ありません。ここでは Python が第一の選択肢です。
#Python で習得する必要がある知識は何ですか?(推奨学習: Python ビデオ チュートリアル)
##1. Pandas ライブラリの操作
Panda はデータ分析において特に重要なライブラリであり、以下の 3 点をマスターする必要があります:
· pandas グループ計算;
· pandas インデックスと複数インデックス;
インデックスは難しいけどとても重要です
· pandas 複数テーブル操作とピボットテーブル
2, numpy 数値計算
numpy データ計算の主な用途はデータマイニングであり、将来の機械学習や深層学習のためには、これも習得する必要があるライブラリです。以下の内容:
· Numpy 配列の理解;
· 配列のインデックス操作;
· 配列の計算;
· ブロードキャスト (線形代数の知識)
3. データ視覚化 - matplotlib と seaborn· Matplotib 構文
Python の最も基本的な視覚化ツールは matplotlib です。一見すると、Matplotlib と matlib は少し似ていますが、学習を容易にするために、2 つの関係を理解する必要があります。
·seaborn の使用
seaborn は非常に美しい視覚化ツールです。
· pandas 描画機能
前述したように、pandas はデータ分析に使用されますが、いくつかの描画 API も提供します。
4. データ マイニングの概要この部分が最も難しく、興味深い部分です。次の部分をマスターする必要があります:
·機械学習
の定義は、ここでのデータ マイニングと変わりません。
· コスト関数の定義
· トレーニング/テスト/検証
· 定義過学習と回避方法
5. データ マイニング アルゴリズムデータ マイニングの発展に伴い、多くのアルゴリズムが存在します。コアおよび最も重要なアルゴリズム 一般的に使用されるアルゴリズム:
· 最小二乗アルゴリズム;
· 勾配降下法;
· ベクトル化;
· 最尤推定;
·ロジスティック回帰;
·デシジョン ツリー;
·RandomForesr;
·XGBoost;
6.データ マイニング 実践的な戦闘機械学習で最も有名なライブラリである scikit-learn を使用して、モデルを理解します。
Python 関連の技術記事の詳細については、
Python チュートリアル以上がPython データマイニングについて何を学ぶ必要がありますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。