ubuntu14.04 安裝
pip install xgboost
報錯
sudo apt-get update
結果一樣的錯誤
#解決方法:
sudo -H pip install --pre xgboost Successfully installed xgboost Cleaning up...
成功了!
過度擬合
當你觀察訓練精度高,但檢測精度低,很可能你遇到過度擬合問題。
xgboost是速度快效果好的boosting模型。
Boosting分類器屬於整合學習模型,基本概念是把數百個分類準確率較低的樹模型組合起來,成為一個準確率很高的模型。這個模型會不斷地迭代,每次迭代都會產生一顆新的樹。對於如何在每一步產生合理的樹,大家提出了許多的方法,我們在這裡簡單介紹Friedman提出的Gradient Boosting Machine。它在生成每一棵樹的時候採用梯度下降的思想,以之前生成的所有樹為基礎,向著最小化給定目標函數的方向多走一步。在合理的參數設定下,我們往往要產生一定數量的樹才能達到令人滿意的準確率。在資料集較大較複雜的時候,我們可能需要幾千次迭代運算,如果產生一個樹模型需要幾秒鐘,那麼這麼多迭代的運算耗時,應該能讓你專心地想靜靜…
現在,我們希望能透過xgboost工具更好地解決這個問題。 xgboost的全名是eXtreme Gradient Boosting。如其名,它是Gradient Boosting Machine的一個c++實現,作者為正在華盛頓大學研究機器學習的大牛陳天奇。他在研究中深感自己受制於現有庫的計算速度和精度,因此在一年前開始著手搭建xgboost項目,並在去年夏天逐漸成型。 xgboost最大的特點在於,它能夠自動利用CPU的多執行緒進行並行,同時在演算法上加以改進提高了精度。它的處女秀是Kaggle的希格斯子信號識別競賽,因為出眾的效率與較高的預測準確度在比賽論壇中引起了參賽者的廣泛關注,在1700多支隊伍的激烈競爭中佔有一席之地。隨著它在Kaggle社區知名度的提高,最近也有隊伍借助xgboost在比賽中奪得第一名。
為了方便大家使用,陳天奇將xgboost封裝成了python函式庫。我有幸和他合作,製作了xgboost工具的R語言接口,並將其提交到了CRAN上。也有用戶將其封裝成了julia庫。 python和R介面的功能一直在不斷更新,大家可以透過下文了解大致的功能,然後選擇自己最熟悉的語言來學習。
命令列直接輸入
ipython notebook
#
以上是Python一些列安裝方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!