作者 Jonathan
Allen
 ,译者 张晓鹏

Splunk的用户大会已经接近尾声。三天时间的会议里,共进行了160多个主题研讨。涵盖了从安全、运营到商业智能。甚至包含物联网,会议中一遍又一遍出现同样的中心主题:大数据的关键是机器学习。

存储不再是一个问题。

从执行Hadoop兼容节点的专用存储硬件。到数百台使用普通硬盘的计算机组成的集群,毫无疑问,我们具备了处理这类存储问题的能力。还有一方面,像Splunk这种分析和可视化工具也应运而生。假设你知道你要找什么,这些工具能够非常快给你所须要的答案。

可是,你应该找什么呢?对于绝大多数的基层供应商来说。问题的答案就在机器学习里面。不管你是在谈论网络流量、用户行为。或者是消费趋势,这都不要紧。你能真正洞察你所监控的东西的方式是找到数据中的模式和相关性。

尽管人类操作员能够通过试错法蹒跚而行,但他们相信,能够通过训练计算机来得到结果。而且速度更快和不带偏见。

当然,这并非说人类已经过时。必须有人来确认相关性不仅仅是种巧合,并找出对信息採取行动的方法。而这也正是前面所提到的可视化工具能够发挥作用的地方。

大数据和机器学习的主要用例

尽管大数据的潜力差点儿是无限的,但不可避免的是一或两个行业会在前面带头冲锋。

假设再过一年问我。我可能会说不同的话,但如今的预測是,不管是安全还是运营。都会处在第一线。

仅仅要比那些仅仅收现金的咖啡亭大的公司,都须要考虑信息的安全性。即使他们没有知识产权可言。但他们都在处理一些敏感信息,如信用卡号码。

有方法能够可靠地检測和阻止那些正在发生的违约行为,对公司的长期成功是至关重要的。基于机器学习的安全产品承诺提供这样的能力,而且它的易用性接近“交钥匙project(译者注:意为卖方把全部事情都做好了,买方仅仅要拿钥匙验收就能够了)”的水准。

与此类似,运营分析将会流行起来。如今你就能够买到工具来监视你的网络,解码数据包,或向你精确呈现一个给定的REST调用是怎样经过server的中间层一路到达数据库或文件系统的。然后把它和一周。一个月或一年曾经的行为做对照。

这不是未来的概念,而是今天现成的东西,并能够在一周内执行起来。

其他领域的研究将会继续下去。但不会有如此快的速度。欺诈检測是很重要的,但大多数公司会依靠他们的金融机构来设计和实施必要的控制措施。我估计在这方面不会有太多商业化的、现成的产品。

商业智能是还有一个会看到大量金钱投入的研究领域。但可口可乐与百事可乐公司用来确定下一个流行口味的算法,看起来一点也不像通用和福特公司用来预測每种尺寸的车型会有多少量的算法。如此类推。商业化产品对大数据的运用眼下可能会主要局限于主要的分析和可视化方面。

其它的会议思考

总而言之。Splunk举办了一次非常好的会议。一切都组织得非常好,每一个人,从刚開始学习的人到最高级的数据挖掘project师,都会有相关的议题研讨。我唯一的抱怨是。议题研讨没有记录。由于有这么多的内容,人们势必会由于冲突错过一两个重要的议题。

即使你对Splunk本身不感兴趣。但对大数据、机器学习以及相关主题感兴趣的不论什么人来说。这都是一次重要的会议。

查看英文原文:Splunk
Conference Recap: The Key to Big Data is Machine Learning

Splunk 会议回想: 大数据的关键是机器学习的更多相关文章

  1. 第四届CCF大数据学术会议征文通知

    第四届CCF大数据学术会议征文通知 2016年10月,兰州 近几年,大数据是各界高度关注积极布局的热点方向.2015年8月,国务院发表<促进大数据发展行动纲要>,正式将大数据提升为国家战略 ...

  2. 追本溯源 解析“大数据生态环境”发展现状(CSDN)

    程学旗先生是中科院计算所副总工.研究员.博士生导师.网络科学与技术重点实验室主任.本次程学旗带来了中国大数据生态系统的基础问题方面的内容分享.大数据的发展越来越快,但是对于大数据的认知大都还停留在最初 ...

  3. [Hadoop 周边] Hadoop和大数据:60款顶级大数据开源工具(2015-10-27)【转】

    说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hado ...

  4. Hadoop和大数据:60款顶级大数据开源工具

    一.Hadoop相关工具 1. Hadoop Apache的Hadoop项目已几乎与大数据划上了等号.它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算. 支持的操作系统: ...

  5. 【转载】Hadoop和大数据:60款顶级大数据开源工具

    一.Hadoop相关工具 1. Hadoop Apache的Hadoop项目已几乎与大数据划上了等号.它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算. 支持的操作系统: ...

  6. 大数据,why python

    大数据,why python ps, 2015-12-4 20:47:46 python" title="大数据,why python">http://www.op ...

  7. Hadoop和大数据:60款顶级开源工具(山东数漫江湖)

    说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hado ...

  8. 从技术 Leader 的招聘需求看,如何转岗为当前紧缺的大数据相关人才?

    前段时间,跟候选人聊天的时候,一个有多年工作经验的资深 iOS 工程师告诉我,他最近正在学习 Machine Learning 相关的知识.他觉得,对于程序员来说,技术进步大大超过世人的想象,如果你不 ...

  9. 工信部<<大数据产业发展规划>>

    大数据产业发展规划 (2016-2020年) 发布时间:2017-01-17  来源:规划司 数据是国家基础性战略资源,是21世纪的“钻石矿”.党中央.国务院高度重视大数据在经济社会发展中的作用,党的 ...

随机推荐

  1. [ Openstack ] Openstack-Mitaka 高可用之 Dashboard

    目录 Openstack-Mitaka 高可用之 概述    Openstack-Mitaka 高可用之 环境初始化    Openstack-Mitaka 高可用之 Mariadb-Galera集群 ...

  2. 【hdoj_2124】RepairTheWall

    题目:http://acm.hdu.edu.cn/showproblem.php?pid=2124 思路:贪心法.由于要求所需的块儿(block)的最小数目,先把所有的块儿加起来,看看大小是否> ...

  3. 上传文件提示413 Request Entity Too Large错误

    打开nginx主配置文件nginx.conf 一般在/usr/local/nginx/conf/nginx.conf这个位置 找到http{}段并修改以下内容 client_max_body_size ...

  4. sublime text3中使用Emmet部分标签无法闭合

    转载自:http://geek100.com/2490/ 不过很早就发现br,input, img在sublime text中是没有闭合标签 / 的. 我一般都是手动补上的, 今天突然想起这个问题, ...

  5. scrapy模拟请求头

    import random USER_AGENT_LIST=[ 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, lik ...

  6. 最小生成树 (Minimum Spanning Tree,MST) --- Prim算法

    本文链接:http://www.cnblogs.com/Ash-ly/p/5409904.html 普瑞姆(Prim)算法: 假设N = (V, {E})是连通网,TE是N上最小生成树边的集合,U是是 ...

  7. 并查集&线段树&树状数组&排序二叉树

    超级无敌巨牛逼并查集(带权并查集)https://vjudge.net/problem/UVALive-4487 带删点的加权并查集 https://vjudge.net/problem/UVA-11 ...

  8. Encode and Decode Strings -- LeetCode

    Design an algorithm to encode a list of strings to a string. The encoded string is then sent over th ...

  9. [BZOJ5006][LOJ#2290][THUWC2017]随机二分图(概率+状压DP)

    https://loj.ac/problem/2290 题解:https://blog.csdn.net/Vectorxj/article/details/78905660 不是很好理解,对于边(x1 ...

  10. 【并查集】bzoj2054 疯狂的馒头

    因为只有最后被染上的颜色会造成影响,所以倒着处理,用并查集维护已经染色的区间的右端点,即fa[i]为i所在的已染色区间的右端点,这样可以保证O(n)的复杂度. #include<cstdio&g ...