首頁 >後端開發 >Python教學 >Kaggle的比赛在 Machine Learning领域中属于什么地位?

Kaggle的比赛在 Machine Learning领域中属于什么地位?

PHP中文网
PHP中文网原創
2017-03-30 15:55:518918瀏覽

一般能在kaggle上获奖的都是什么样的人?能学到东西吗?在kaggle上获过奖在求职或申请研究生方面算是一个亮点吗?

回复内容:

从Netflix Prize之后的一两年,这种类型的比赛开始盛行。最开始参与的能取得好成绩的都是一些大牛,比如大家都熟知的项亮当时是Netflix Prize第二名的成员。

这几年随着比赛越来越多,winner solution也到处都是,套路大家也越来越熟。不管什么比赛, LR+GDBT+FM+NN上去一搞,再ensemble一下,总能得到一个不错的结果。

在kaggle上获得什么名次不能说明什么。如果能在比赛过程中体现出分析问题解决问题的能力,特别是能针对性的提出结果方案,才能体现真实水平。举一个例子,上海交大APEX实验室的团队参加KDD Cup 11之后开发了SVD Feature;参加KDD Cup 12获得第一名中的一些tree相关的技术是Tianqi的ICML 13 paper以及XGBoost的基础。相反,如果你翻开最近参加kaggle比赛的一些solution分享,大多都是follow一些特定的流程走了一遍,并没有什么新东西。

另外,现在大家都是组队参加,真正能起决定作用的是其中少数几个人,另外还有几个打酱油的喜欢拿着成绩自己出去吹,对这些人大家还是多加小心。

参加比赛和做research是不一样的。很多人可以不必了解model和algorithm的细节,拿几个开源的包跑跑就可以得到不错的成绩。而做*好的*research需要对模型和应用较深的理解。所以,对求职来说是一个亮点,但是对申请研究生来说,不一定。 获奖的都是有真本事的人,在上面练几个题目得个好名次,十分能证明你对数据科学这个领域的实践和理解。我现在招人的时候几乎是这个标准:

  1. 写上参加过Kaggle比赛,我会看简历。

  2. 得过一次10%,我会给电话面试。

  3. 得过2次或者以上10%,我会给on site面试。

  4. 得过一次前10,我们会谈笑风生。

楼主加油。 在主流科研界可能影响已经不大了,但是在工业界中依然很受用。如果你有一些特别亮点的成绩,还是很有说服力的。也正如 @lau phunter中提到的答案一样。

如果要在Kaggle比赛里面获得一个好的成绩,免不了要做大量的实验:关于参数选择,模型选择,以及特征工程等等。而为了高效地完成这些实验,即要有良好的实验思想,又要有扎实的代码功底来完成Pipeline设计与架构。这都非常考验人的综合能力,是工业界需要的人才。

当然即便如此,Kaggle的比赛已经比真实世界中的机器学习要做的事情简化太多了。我们平时时间都花在哪了?
* 确定要解决的问题到底是什么
* 明确优化指标
* 收集合适的数据
* 数据清洗
* 做各种实验
* 要求其他组的人协同做A/B Test
* 把机器学习的Pipeline整合到其他产品的Pipeline中
* 在各个场合推销我们的模型真的有用……

所以真正能跑实验的时间并不多。但无论怎样,至少Kaggle中取得一个好成绩说明你真的可以系统性地做实验,是非常大的亮点,也是非常过硬得指标。 申请研究生应该没卵用,没拿过这个东西申请工作,也不知道。至于能不能学到东西,看什么样的比赛,以及是否用心。

有些比赛数据太简单,下载下来跑个Xgboost,就10%了。不过如果自己去尝试新的东西,也是能有收获的。

有一些数据比较麻烦,处理数据就费时间,feature engineering的余地也比较丰富,有时候要自己写一些规则或者写loss function,这些比赛可以学到不少。

获奖不容易。简单的比赛由于参加人数太多,方法又太同质化,时间都花在tuning parameter和ensemble上,获奖需要很好的运气。复杂的比赛,方法千差万别,还搞tuning parameter那套就不灵了,top队伍时间都花在抓问题关键上,谁抓到的关键更多,谁分数就更高,这个要花很多时间和思考,比较刺激。 什么样的人都有。奖金高的比赛有不少大公司的"专业选手",奖金低的比赛入门级选手居多。到缺少专业机器学习人才的公司求职会有帮助。申请研究生不如发表顶会文章有用。 感觉没什么地位,属于转专业到data scientist利器。 这种实战性的比赛挺好的,我们模仿kaggle办了一个大数据的比赛,欢迎来玩。
奖金1w,时间黑客:寻找创造时间的程序大师 随身云日历产品大数据挖掘&在线编程大赛One suggestion, do a crappy PhD, or get a job. Just don't get a master's. Unless it's funded or in US. 进榜不难,排前面较易,排前几很难。都是套路,熟练+简单思考就好。 跟挖掘机开酒瓶的比赛没啥区别…

 以上就是Kaggle的比赛在 Machine Learning领域中属于什么地位?的内容,更多相关内容请关注PHP中文网(www.php.cn)!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn