Splunk 会议回想: 大数据的关键是机器学习

Splunk的用户大会已经接近尾声。三天时间的会议里，共进行了160多个主题研讨。涵盖了从安全、运营到商业智能。甚至包含物联网，会议中一遍又一遍出现同样的中心主题：大数据的关键是机器学习。

存储不再是一个问题。

从执行Hadoop兼容节点的专用存储硬件。到数百台使用普通硬盘的计算机组成的集群，毫无疑问，我们具备了处理这类存储问题的能力。还有一方面，像Splunk这种分析和可视化工具也应运而生。假设你知道你要找什么，这些工具能够非常快给你所须要的答案。

可是，你应该找什么呢？对于绝大多数的基层供应商来说。问题的答案就在机器学习里面。不管你是在谈论网络流量、用户行为。或者是消费趋势，这都不要紧。你能真正洞察你所监控的东西的方式是找到数据中的模式和相关性。

尽管人类操作员能够通过试错法蹒跚而行，但他们相信，能够通过训练计算机来得到结果。而且速度更快和不带偏见。

当然，这并非说人类已经过时。必须有人来确认相关性不仅仅是种巧合，并找出对信息採取行动的方法。而这也正是前面所提到的可视化工具能够发挥作用的地方。

大数据和机器学习的主要用例

尽管大数据的潜力差点儿是无限的，但不可避免的是一或两个行业会在前面带头冲锋。

假设再过一年问我。我可能会说不同的话，但如今的预測是，不管是安全还是运营。都会处在第一线。

仅仅要比那些仅仅收现金的咖啡亭大的公司，都须要考虑信息的安全性。即使他们没有知识产权可言。但他们都在处理一些敏感信息，如信用卡号码。

有方法能够可靠地检測和阻止那些正在发生的违约行为，对公司的长期成功是至关重要的。基于机器学习的安全产品承诺提供这样的能力，而且它的易用性接近“交钥匙project（译者注：意为卖方把全部事情都做好了，买方仅仅要拿钥匙验收就能够了）”的水准。

与此类似，运营分析将会流行起来。如今你就能够买到工具来监视你的网络，解码数据包，或向你精确呈现一个给定的REST调用是怎样经过server的中间层一路到达数据库或文件系统的。然后把它和一周。一个月或一年曾经的行为做对照。

这不是未来的概念，而是今天现成的东西，并能够在一周内执行起来。

其他领域的研究将会继续下去。但不会有如此快的速度。欺诈检測是很重要的，但大多数公司会依靠他们的金融机构来设计和实施必要的控制措施。我估计在这方面不会有太多商业化的、现成的产品。

商业智能是还有一个会看到大量金钱投入的研究领域。但可口可乐与百事可乐公司用来确定下一个流行口味的算法，看起来一点也不像通用和福特公司用来预測每种尺寸的车型会有多少量的算法。如此类推。商业化产品对大数据的运用眼下可能会主要局限于主要的分析和可视化方面。

其它的会议思考

总而言之。Splunk举办了一次非常好的会议。一切都组织得非常好，每一个人，从刚開始学习的人到最高级的数据挖掘project师，都会有相关的议题研讨。我唯一的抱怨是。议题研讨没有记录。由于有这么多的内容，人们势必会由于冲突错过一两个重要的议题。

即使你对Splunk本身不感兴趣。但对大数据、机器学习以及相关主题感兴趣的不论什么人来说。这都是一次重要的会议。

查看英文原文：Splunk
Conference Recap: The Key to Big Data is Machine Learning