Splunk 会议回想: 大数据的关键是机器学习
作者 Jonathan
Allen ,译者 张晓鹏
Splunk的用户大会已经接近尾声。三天时间的会议里,共进行了160多个主题研讨。涵盖了从安全、运营到商业智能。甚至包含物联网,会议中一遍又一遍出现同样的中心主题:大数据的关键是机器学习。
存储不再是一个问题。
从执行Hadoop兼容节点的专用存储硬件。到数百台使用普通硬盘的计算机组成的集群,毫无疑问,我们具备了处理这类存储问题的能力。还有一方面,像Splunk这种分析和可视化工具也应运而生。假设你知道你要找什么,这些工具能够非常快给你所须要的答案。
可是,你应该找什么呢?对于绝大多数的基层供应商来说。问题的答案就在机器学习里面。不管你是在谈论网络流量、用户行为。或者是消费趋势,这都不要紧。你能真正洞察你所监控的东西的方式是找到数据中的模式和相关性。
尽管人类操作员能够通过试错法蹒跚而行,但他们相信,能够通过训练计算机来得到结果。而且速度更快和不带偏见。
当然,这并非说人类已经过时。必须有人来确认相关性不仅仅是种巧合,并找出对信息採取行动的方法。而这也正是前面所提到的可视化工具能够发挥作用的地方。
大数据和机器学习的主要用例
尽管大数据的潜力差点儿是无限的,但不可避免的是一或两个行业会在前面带头冲锋。
假设再过一年问我。我可能会说不同的话,但如今的预測是,不管是安全还是运营。都会处在第一线。
仅仅要比那些仅仅收现金的咖啡亭大的公司,都须要考虑信息的安全性。即使他们没有知识产权可言。但他们都在处理一些敏感信息,如信用卡号码。
有方法能够可靠地检測和阻止那些正在发生的违约行为,对公司的长期成功是至关重要的。基于机器学习的安全产品承诺提供这样的能力,而且它的易用性接近“交钥匙project(译者注:意为卖方把全部事情都做好了,买方仅仅要拿钥匙验收就能够了)”的水准。
与此类似,运营分析将会流行起来。如今你就能够买到工具来监视你的网络,解码数据包,或向你精确呈现一个给定的REST调用是怎样经过server的中间层一路到达数据库或文件系统的。然后把它和一周。一个月或一年曾经的行为做对照。
这不是未来的概念,而是今天现成的东西,并能够在一周内执行起来。
其他领域的研究将会继续下去。但不会有如此快的速度。欺诈检測是很重要的,但大多数公司会依靠他们的金融机构来设计和实施必要的控制措施。我估计在这方面不会有太多商业化的、现成的产品。
商业智能是还有一个会看到大量金钱投入的研究领域。但可口可乐与百事可乐公司用来确定下一个流行口味的算法,看起来一点也不像通用和福特公司用来预測每种尺寸的车型会有多少量的算法。如此类推。商业化产品对大数据的运用眼下可能会主要局限于主要的分析和可视化方面。
其它的会议思考
总而言之。Splunk举办了一次非常好的会议。一切都组织得非常好,每一个人,从刚開始学习的人到最高级的数据挖掘project师,都会有相关的议题研讨。我唯一的抱怨是。议题研讨没有记录。由于有这么多的内容,人们势必会由于冲突错过一两个重要的议题。
即使你对Splunk本身不感兴趣。但对大数据、机器学习以及相关主题感兴趣的不论什么人来说。这都是一次重要的会议。
查看英文原文:Splunk
Conference Recap: The Key to Big Data is Machine Learning
Splunk 会议回想: 大数据的关键是机器学习的更多相关文章
- 第四届CCF大数据学术会议征文通知
第四届CCF大数据学术会议征文通知 2016年10月,兰州 近几年,大数据是各界高度关注积极布局的热点方向.2015年8月,国务院发表<促进大数据发展行动纲要>,正式将大数据提升为国家战略 ...
- 追本溯源 解析“大数据生态环境”发展现状(CSDN)
程学旗先生是中科院计算所副总工.研究员.博士生导师.网络科学与技术重点实验室主任.本次程学旗带来了中国大数据生态系统的基础问题方面的内容分享.大数据的发展越来越快,但是对于大数据的认知大都还停留在最初 ...
- [Hadoop 周边] Hadoop和大数据:60款顶级大数据开源工具(2015-10-27)【转】
说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hado ...
- Hadoop和大数据:60款顶级大数据开源工具
一.Hadoop相关工具 1. Hadoop Apache的Hadoop项目已几乎与大数据划上了等号.它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算. 支持的操作系统: ...
- 【转载】Hadoop和大数据:60款顶级大数据开源工具
一.Hadoop相关工具 1. Hadoop Apache的Hadoop项目已几乎与大数据划上了等号.它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算. 支持的操作系统: ...
- 大数据,why python
大数据,why python ps, 2015-12-4 20:47:46 python" title="大数据,why python">http://www.op ...
- Hadoop和大数据:60款顶级开源工具(山东数漫江湖)
说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hado ...
- 从技术 Leader 的招聘需求看,如何转岗为当前紧缺的大数据相关人才?
前段时间,跟候选人聊天的时候,一个有多年工作经验的资深 iOS 工程师告诉我,他最近正在学习 Machine Learning 相关的知识.他觉得,对于程序员来说,技术进步大大超过世人的想象,如果你不 ...
- 工信部<<大数据产业发展规划>>
大数据产业发展规划 (2016-2020年) 发布时间:2017-01-17 来源:规划司 数据是国家基础性战略资源,是21世纪的“钻石矿”.党中央.国务院高度重视大数据在经济社会发展中的作用,党的 ...
随机推荐
- WIN32通用控件之打开对话框获取文件路径
OPENFILENAME ofn; char FileName[MAX_PATH]; memset(&ofn,,sizeof(OPENFILENAME)); memset(FileName,, ...
- selenium+python在mac环境上的搭建【转载】
前言 mac自带了python2.7的环境,所以在mac上安装selenium环境是非常简单的,输入2个指令就能安装好 需要安装的软件: 1.pip 2.selenium2.53.6 3.Firefo ...
- Java语言中的协变和逆变(zz)
转载声明: 本文转载至:http://swiftlet.net/archives/1950 协变和逆变指的是宽类型和窄类型在某种情况下的替换或交换的特性.简单的说,协变就是用一个窄类型替代宽类型,而逆 ...
- 更换介质:请把标有…… DVD 的盘片插入驱动器“/media/cdrom/”再按回车键“ 解决方法
https://blog.csdn.net/no7oor/article/details/12776815
- (4)三剑客之awk
(1)awk工作原理#awk -F: '{print $1,$3}' /etc/passwd 1)awk使用一行作为输入,并将这一行赋给内部变量$0,每一行也可称为一个记录,已换行符结束 2)然后行被 ...
- 第1天-html快速入门
开发工具:HBuilder 创建项目: 在电脑本地磁盘创建项目目录,如"D:\project" 打开HBuilder,这个工具默认会创建一个项目,我们删掉即可,然后新建项目:&qu ...
- 浅谈单页应用和多页应用——Vue.js向
浅谈单页应用和多页应用--Vue.js向 多页面 多页面应用:每次页面跳转,后台都会返回一个新的HTML文档,就是多页面应用. 在以往传统开发的应用(网站)大多都是多页面应用,路由由后端来写. 页面跳 ...
- 对mysql数据库表的相关操作
虫师博客(Python使用MySQL数据库(新)): https://www.cnblogs.com/fnng/p/3565912.html 1.更改表的结构,增加一个字段放置新增的属性 alter ...
- 对mysql 数据库操作 使其支持插入中文(针对python)
首先,这项任务确切的说需要三步吧: #1.建立数据库(数据库名为xsk) create database `xsk` character set 'utf8' collate 'utf8_genera ...
- 【单调队列】bzoj1047 [HAOI2007]理想的正方形
先把整个矩阵处理成b[n][m-K+1].c[n][m-K+1]大小的两个矩阵,分别存储每行每K个数中的最大.最小值,然后再通过b.c处理出d.e分别表示K*K大小的子矩阵中的最大.最小值即可.单调队 ...