Kaggle大数据竞赛平台入门
Kaggle大数据竞赛平台入门
大数据竞赛平台,国内主要是天池大数据竞赛和DataCastle,国外主要就是Kaggle.Kaggle是一个数据挖掘的竞赛平台,网站为:https://www.kaggle.com/.很多的机构,企业将问题,描述,期望发布在Kaggle上,以竞赛的方式向广大的数据科学家征集解决方案,体现了集体智慧这一思想.每个人在网站上注册后,都可以下载感兴趣项目的数据集,分析数据,构造模型,解决问题提交结果.按照结果的好坏会有一个排名,成绩优异者还可能获得奖金/面试机会等.
图1展示了进入Kaggle官网后显示的正在进行的比赛,这些比赛的类型是不同的,可以进行筛选显示,有All Categories,Faatured,Recruitment,Research,Playground,Getting Started,In Class这7个选项.显示为Featured的比赛(左侧有粉红色条条)一般奖金比较丰厚,竞争也比较大;显示为Research的比赛(左侧有黄色条条),奖金少一些;显示为Recruitment的比赛,虽然没有奖金,但是却可以获得发布项目公司的实习/面试机会,这也给企业招聘人才提供了另外一种方式.显示为Playground的为练习赛,主要用于初学者练手,对于初学者,建议从这里开始.Getting Started里面手把手教你一步一步地进行数据挖掘,是很好的入门教程.除了这些公开比赛,Kaggle还会想活跃的参与者提供私下的比赛,以及为大学团体提供Kaggle-In-Class项目.Kaggle的博客No Free Hunch也是一个好的学习去处,提供了Data Science News,Kaggle News,Kernels,Tutorials,以及Winner's Interviews这些栏目.

图1 Kaggle首页
比赛流程:
1.进去感兴趣的竞赛项目,下载数据集(csv格式),数据集中一般包括训练数据集和测试数据集,查看数据描述和任务描述,明确需求;
2.用你擅长的任何语言或者算法来构建模型,用训练集来训练,然后用训练好的模型推测测试集的labels,生成一个测试集labels作为最终的提交文件;
3.系统会从所提交文件中选取25%的数据进行初评,根据评测结果得到准确率和排名.在比赛结束时,采用剩下的75%的数据进行终评,作为最后的准确率.


Kernels:
Kernels提供了数据分析的环境,数据集,代码和输出样式,点击进去是下面这样的: 这类似于Jupyper Notebook.在这里面可以直接编译python,可以在code和markdown之间自由切换,可以很方便地复现和分享.还有一点就是你可能不需要将数据集下载下来,也不需要配置本地的python以及各种库(比如pandas,numpy等),直接在网页上进行数据挖掘.Kernel上还可以分享代码(初学者好的学习去处),在Forum(论坛)回答问题还可以积分.

参考文献:
[1] Kaggle机器学习竞赛冠军及优胜者的源代码汇总: http://suanfazu.com/t/kaggle/230
[2] Approaching (Almost) Any Machine Learning Problem | Abhishek Thakur
Kaggle大数据竞赛平台入门的更多相关文章
- 大数据竞赛平台——Kaggle 入门
Reference: http://blog.csdn.net/witnessai1/article/details/52612012 Kaggle是一个数据分析的竞赛平台,网址:https://ww ...
- 大数据竞赛平台——Kaggle 入门篇
这篇文章适合那些刚接触Kaggle.想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文.本文分为两部分介绍Kaggle,第一部分简 ...
- 大数据竞赛平台——Kaggle 入门(转)
先马克一下:http://blog.csdn.net/u012162613/article/details/41929171
- 大数据竞赛平台Kaggle案例实战
Kaggle是由联合创始人.首席执行官安东尼·高德布卢姆(Anthony Goldbloom)2010年在墨尔本创立的,主要为开发商和数据科学家提供举办机器学习竞赛.托管数据库.编写和分享代码的平台. ...
- GitHub 干货 | 各大数据竞赛 Top 解决方案开源汇总
AI 科技评论编者按:现在,越来越多的企业.高校以及学术组织机构通过举办各种类型的数据竞赛来「物色」数据科学领域的优秀人才,并借此激励他们为某一数据领域或应用场景找到具有突破性意义的方案,也为之后的数 ...
- 大数据计算平台Spark内核解读
1.Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目.随着 Spark在大数据计算领域的暂露头角,越来越多 ...
- 大数据:Hadoop入门
大数据:Hadoop入门 一:什么是大数据 什么是大数据: (1.)大数据是指在一定时间内无法用常规软件对其内容进行抓取,管理和处理的数据集合,简而言之就是数据量非常大,大到无法用常规工具进行处理,如 ...
- 大数据计算平台Spark内核全面解读
1.Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目.随着Spark在大数据计算领域的暂露头角,越来越多的 ...
- 阿里大数据竞赛season1 总结
关于样本测试集和训练集数量上,一般是选择训练集数量不小于测试集,也就是说训练集选取6k可能还不够,大家可以多尝试得到更好的效果: 2. 有人提出归一化方面可能有问题,大家可以查查其他的归一化方法,但是 ...
随机推荐
- Alpha发布评价
1.奋斗吧兄弟组 食物链系统 是一个比较成熟的工具,可以应用于生物课程的辅助讲解,具有很强的软件目的性和实用性. 2.Newbee 俄罗斯方块 因为选了很经典的游戏,所以在创新上下了一定功夫,可是没有 ...
- Installing OpenSSH from the Settings UI on Windows Server 2019 or Windows 10 1809
Installing OpenSSH from the Settings UI on Windows Server 2019 or Windows 10 1809 OpenSSH client and ...
- FuelPHP 系列(三) ------ Model 模型
框架封装好的 model 类有几个,按需继承就好. 有:/fuel/core/classes/model/crud.php /fuel/packages/orm/classes/model.php / ...
- CORS & X-Frame-Options
CORS & X-Frame-Options X-Frame-Options https://developer.mozilla.org/en-US/docs/Web/HTTP/Headers ...
- 登录窗口不是系统主窗口 但又需要最先显示 用delphi怎么编写代
主窗体FormShow事件(主窗体为Form1为例,Form2为登陆窗体) procedure TForm1.FormShow(Sender: TObject); begin if Form2.S ...
- java学习三 小数默认为double
前++,后++在独立运算时候 直接计算出值 当后加加和减减和其他代码在一行的时候先使用加加和减减之前的值, 如果不在同一行,后面的一行就会得到加加或减减后的值 &&是逻辑运算符,逻辑运 ...
- CentOS6.7定制化制作ISO
CentOS6.7定制化制作ISO 以CentOS 6.7-minimal为例. 欢迎大家转载,并保留原文出处.内容若有错误或补充,请联系:szyzln@126.com 本文主要讲解如何在已有官方Ce ...
- k8s role
转 https://blog.qikqiak.com/post/add-authorization-for-kubernetes-dashboard/ 另外还可以参考这个 https://mrit ...
- OpenStack 计算服务 Nova介绍和控制节点部署(七)
介绍 Nova是openstack最早的两块模块之一,另一个是对象存储swift.在openstack体系中一个叫做计算节点,一个叫做控制节点.这个主要和nova相关,我们把安装为计算节点nova-c ...
- 自己写的一个Vue
下面这里是我自己写的一个小型的vue,原理就是proxy: //Proxy天生没有prototype,因此要加上,不然extends会报错 Proxy.prototype = Proxy.protot ...