首頁  >  問答  >  主體

python - 在推荐系统、机器学习中,如何将一个完整的数据集划分为训练集和测试集

如题,有没有快速一点的方法,我如果要做多折交叉验证,应该怎么去划分数据集

天蓬老师天蓬老师2742 天前983

全部回覆(3)我來回復

  • 黄舟

    黄舟2017-04-18 09:05:54

    平均分成10份,循環10次,每次選1份作為測試集,9份做訓練集

    回覆
    0
  • PHP中文网

    PHP中文网2017-04-18 09:05:54

    一般來講,做cross validation的時候,大家會把k設為5或10。也就是說,將資料(隨機)分成k份,其中k-1份为训练,1份做測試。不過話說回來,都要做cross validation了,應該是快不了的。

    回覆
    0
  • PHP中文网

    PHP中文网2017-04-18 09:05:54

    可以用3.1. Cross-validation: evaluating estimator performance

    >>> from sklearn.model_selection import cross_val_score
    >>> clf = svm.SVC(kernel='linear', C=1)
    >>> scores = cross_val_score(clf, iris.data, iris.target, cv=5)
    >>> scores                                              
    array([ 0.96...,  1.  ...,  0.96...,  0.96...,  1.        ])

    回覆
    0
  • 取消回覆