大数据分析的众包平台—Kaggle
众包(Jeff Howe,2006)是一种在互联网蓬勃发展的背景下产生的一种创新的生产组织形式。在这样的商业模式下,企业利用网络将工作分配出去,通过让更合适的人群参与其中来发现创意和解决技术问题。比较成功的众包例子有像wikipedia这样的知识贡献类平台,GitHub这样的IT类平台,也有我们要着重介绍的大数据分析类的众包平台Kaggle。
Figure 1 Kaggle的工作方式。

Kaggle的工作方式如图中右上角的流程所示。假设一个互联网广告公司收集了大量的关于用户广告点击行为的数据,想从这些数据中发现用户点击的规律、模式,希冀以此来优化广告投放、提高用户点击转化率。一种做法是,公司雇佣一个数据科学家团队来洞察数据,为决策提供支持。这种做法的成本可能比较高,小公司难以承受。Kaggle提供了另外一种方式。公司可以将他们的数据、问题的描述、以及期望的指标整理后发布到Kaggle上,通过举办竞赛的方式让网上的数据科学家参与解决。数据分析师们或独立、或组队参加比赛,利用自己的专业知识和数据分析工具得到优化模型。最后,这些结果经过原定指标的检验,被公布到排行版上;最好的结果将获得竞赛的奖金(几百美元到几百万美元不等)。而公司也能最终拥有数据分析的结果、模型等知识产权。图中左表列出了Kaggle上面一个问题的例子,这是关于Twitter对其用户的个性分析的案例。包含了训练集、测试集、示例代码和作为基准的随机森林模型。而右表则是排行版上前六位的团队以及他们在loss这个指标上的表现。
Kaggle的流行是由两方面的因素决定的。首先,随着数据量的爆炸性增长,尤其是互联网企业掌握的数据越来越多,如何利用这些数据成为了决策者们所关心的问题。大多数依靠互联网挣钱的企业技术门槛较低,竞争激励。像2010年兴起的团购,一时间中国大地上出现了5000多家类似的公司,大家有着同样的网站模板,相似的业务,却没有任何差异化的东西。如何提高技术壁垒,脱颖而出,数据驱动(data-driven)成为了大家关注的焦点。商家们需要收集用户的行为数据,分析不同用户群体的行为规律,从而为商品的定向投放,精准推荐提供有力支持。另一方面,数据科学家成为了21世纪最稀缺的资源。Kaggle总裁兼首席科学家Jeremy Howard认为一个伟大的数据科学家应具备创新、坚韧、好奇、深厚技术这四项素质。具备数据收集、数据改写、可视化、机器学习、计算机编程等技术的数据科学家使数据驱动决策并主导产品。根据McKinsey的预测,在未来6年,仅在美国本土就可能面临缺乏14万至19万具备深入分析数据能力人才的情况,同时具备通过分析大数据并为企业做出有效决策的数据的管理人员和分析师也有150万人的缺口。如何充分利用现有的数据科学家的专业知识来帮助有需要的企业实现数据驱动的业务支持,Kaggle正是基于这样的想法,建立起了一个联通领域和专业技能的桥梁。
众包方式的大数据分析绝不仅仅只有Kaggle一家,类似的还有CrowdAnalytix和TunedIT。而最早的学术界的Kaggle可以认为是从1997年开始的由ACM组织的KDD CUP(知识发现和数据挖掘竞赛)。KDD每年一次,涉及的领域从生物、营销、安全、医学,一直到最近火热的用户行为分析和社交网络分析。比如,今年(KDD2012)的分析任务就是由腾讯微博提供,通过对微博的社交分析,期望预测出最有可能的关注(Follow)关系。
现在已经是“大数据”的时代,所有的人都预测在这个领域内将来会产生一批伟大的公司。目前,在Kaggle上吸引了将近六万的参与者,竞赛的内容也从单纯的预测性分析拓展到所有关于数据的创意,比如如何实现工作职位网站上的数据可视化。可以说,聚集了如此多智慧和机会的大数据众包平台Kaggle一定会成为这些伟大公司的一员,让我们拭目以待。
大数据分析的众包平台—Kaggle的更多相关文章
- 大数据竞赛平台——Kaggle 入门
Reference: http://blog.csdn.net/witnessai1/article/details/52612012 Kaggle是一个数据分析的竞赛平台,网址:https://ww ...
- 大数据竞赛平台——Kaggle 入门篇
这篇文章适合那些刚接触Kaggle.想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文.本文分为两部分介绍Kaggle,第一部分简 ...
- 使用Kylin构建企业大数据分析平台的4种部署方式
本篇博客重点介绍如何使用Kylin来构建大数据分析平台.根据官网介绍,其实部署Kylin非常简单,称为非侵入式安装,也就是不需要去修改已有的 Hadoop大数据平台.你只需要根据的环境下载适合的Kyl ...
- 《基于Apache Kylin构建大数据分析平台》
Kyligence联合创始人兼CEO,Apache Kylin项目管理委员会主席(PMC Chair)韩卿 武汉市云升科技发展有限公司董事长,<智慧城市-大数据.物联网和云计算之应用>作者 ...
- 【转】使用Apache Kylin搭建企业级开源大数据分析平台
http://www.thebigdata.cn/JieJueFangAn/30143.html 本篇文章整理自史少锋4月23日在『1024大数据技术峰会』上的分享实录:使用Apache Kylin搭 ...
- 使用Apache Kylin搭建企业级开源大数据分析平台
转:http://www.thebigdata.cn/JieJueFangAn/30143.html 我先做一个简单介绍我叫史少锋,我曾经在IBM.eBay做过大数据.云架构的开发,现在是Kylige ...
- Net Core SignalR 测试,可以用于unity、Layair、白鹭引擎、大数据分析平台等高可用消息实时通信器。
SignalR介绍 SignalR介绍来源于微软文档,不过多解释.https://docs.microsoft.com/zh-cn/aspnet/core/signalr/introduction?v ...
- DKH大数据分析平台解决方案优势说明
大数据技术的发展与应用已经在深刻地改变和影响我们的日常生活与工作,可以预见的是在大数据提升为国家战略层面后,未来的几年里大数据技术将会被更多的行业应用. 相信很多人对于大数据技术的应用还是处于一个非常 ...
- 奥威软件Speed-BI荣获2016年度中国大数据最佳云平台奖
(原文转自:http://www.powerbi.com.cn/page110?article_id=210) 2016年12月16日,“科技原力觉醒,引领创新巅峰”—2016创新影响力年会暨国家产业 ...
随机推荐
- spring_150805_datasource
实体类: package com.spring.model; public class DogPet { private int id; private String name; private in ...
- C#产生不重复的随机数并生成随机文件名
本文转自:http://blog.ciznx.com/post/csharprandomnumberandrandomfilename.aspx 在项目中会遇到需要批量生成文件的时候,比如 asp.n ...
- x11vnc
http://cisight.com/how-to-setup-vnc-server-remote-desktop-in-ubuntu-11-10-oneiric/ Install VNC serve ...
- zf2 安装
下载实例程序 ZendSkeletonApplication 解压至D:\xampp\htdocs并重命名为ZendSkeletonApplication 下载Zend Framework 2.0最新 ...
- ISE MAP报错: Unsupported programming for BSCAN block and JTAG_CHAIN attribute value 1的解决方法
2014-04-16 17:35:30 ISE MAP报错: Unsupported programming for BSCAN block and JTAG_CHAIN attribute valu ...
- [HDOJ5510]Bazinga(并查集)
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5510 普通集合会tle,换高贵的并查集. #include <algorithm> #in ...
- 无法创建链接服务器 "(null)" 的 OLE DB 访问接口 "Microsoft.Ace.OLEDB.12.0" 的实例。
--开启导入功能 exec sp_configure 'show advanced options',1 reconfigure exec sp_configure 'Ad Hoc ...
- 编译Apache Hadoop2.2.0源代码
Hadoop2的学习资料很少,只有官网的少数文档.如果想更深入的研究hadoop2,除了仅看官网的文档外,还要学习如何看源码,通过不断的调试跟踪源码,学习hadoop的运行机制. 1.安装CentOS ...
- js控制div是否显示
<!DOCTYPE HTML> <html> <head> <meta http-equiv="Content-Type" content ...
- C语言之内存覆盖
在实现memcpy函数的时候,我们说过要考虑内存覆盖的问题,到底什么是内存覆盖呢,他的出现对程序到底有什么影响呢?我们又要如何去解决这种问题的发生? 首先先看一般人经常实现的memcpy函数: #in ...