除Hadoop大数据技术外，还需了解的九大技术

除Hadoop外的9个大数据技术：

1.Apache Flink

2.Apache Samza

3.Google Cloud Data Flow

4.StreamSets

5.Tensor Flow

6.Apache NiFi

7.Druid

8.LinkedIn WhereHows

9.Microsoft Cognitive Services

Hadoop是大数据领域最流行的技术，但并非唯一。还有很多其他技术可用于解决大数据问题。除了Apache Hadoop外，另外9个大数据技术也是必须要了解的。

1.Apache Flink

是一个高效、分布式、基于Java实现的通用大数据分析引擎，它具有分布式MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案，它支持批量和基于流的数据分析，且提供了基于Java和Scala的API。

这是一种由社区驱动的分布式大数据分析开源框架，类似于Apache Hadoop和Apache Spark。它的引擎可借助数据流和内存中(in-memory)处理与迭代操作改善性能。目前Apache Flink已成为一个顶级项目(Top Level Project,TLP)，于2014年4月被纳入Apache孵化器，目前在全球范围内有很多贡献者。

Flink受到了MPP数据库技术（Declaratives、Query Optimizer、Parallel in-memory、out-of-core 算法）和Hadoop MapReduce技术（Massive scale out, User Defined functions, Schema on Read）的启发，有很多独特功能（Streaming, Iterations, Dataflow, General API）。

2.Apache Samza：

是一个开源、分布式的流处理框架，它使用开源分布式消息处理系统Apache Kafka来实现消息服务，并使用资源管理器Apache Hadoop Yarn实现容错处理、处理器隔离、安全性和资源管理。

该技术由LinkedIn开发，最初目的是为了解决Apache Kafka在扩展能力方面存在的问题，包含诸如Simple API、Managed state、Fault Tolerant、Durable messaging、Scalable、Extensible，以及Processor Isolation等功能。

Samza的代码可作为Yarn作业运行，还可以实施StreamTask接口，借此定义process()调用。StreamTask可以在任务实例内部运行，其本身也位于一个Yarn容器内。

3.Cloud Dataflow：

Dataflow是一种原生的Google Cloud数据处理服务，是一种构建、管理和优化复杂数据流水线的方法，用于构建移动应用，调试、追踪和监控产品级云应用。它采用了Google内部的技术Flume和MillWhell，其中Flume用于数据的高效并行化处理，而MillWhell则用于互联网级别的带有很好容错机制的流处理。

该技术提供了简单的编程模型，可用于批处理和流式数据的处理任务。该技术提供的数据流管理服务可控制数据处理作业的执行，数据处理作业可使用Data Flow SDK(Apache Beam)创建。

Google Data Flow为数据相关的任务提供了管理、监视和安全能力。Sources和Sink可在管线中抽象地执行读写操作，管线封装而成的整个计算序列可以接受外部来源的某些输入数据，通过对数据进行转换生成一定的输出数据。

4.StreamSets：

StreamSets是一种专门针对传输中数据进行过优化的数据处理平台，提供了可视化数据流创建模型，通过开源的方式发行。该技术可部署在内部环境或云中，提供了丰富的监视和管理界面。

数据收集器可使用数据管线实时地流式传输并处理数据，管线描述了数据从源头到最终目标的流动方式，可包含来源、目标，以及处理程序。数据收集器的生命周期可通过管理控制台进行控制。

5.TensorFlow：

是继DistBelief之后的第二代机器学习系统。TensorFlow源自Google旗下的Google Brain项目，主要目标在于为Google全公司的不同产品和服务应用各种类型的神经网络机器学习能力。

支持分布式计算的TensorFlow能够使用户在自己的机器学习基础结构中训练分布式模型。该系统以高性能的gRPC数据库为支撑，与最近发布的Google云机器学习系统互补，使用户能够利用Google云平台，对TensorFlow模型进行训练并提供服务。

这是一种开源软件库，可使用数据流图谱(data flow graph)进行数值运算，这种技术已被包括DeepDream、RankBrain、Smart Replyused在内的各种Google项目所使用。

数据流图谱使用由节点(Node)和边缘(Edge)组成的有向图(Directed graph)描述数值运算。图谱中的节点代表数值运算，边缘代表负责在节点之间进行通信的多维数据阵列(张量，Tensor)。边缘还描述了节点之间的输入/输出关系。“TensorFlow”这个名称蕴含了张量在图谱上流动的含义。

6.Druid：

Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统，旨在快速处理大规模的数据，并能够实现快速查询和分析，诞生于2011年，包含诸如驱动交互式数据应用程序，多租户：大量并发用户，扩展能力：每天上万亿事件，次秒级查询，实时分析等功能。Druid还包含一些特殊的重要功能，例如低延迟数据摄入、快速聚合、任意切割能力、高可用性、近似计算与精确计算等。

创建Druid的最初意图主要是为了解决查询延迟问题，当时试图使用Hadoop来实现交互式查询分析，但是很难满足实时分析的需要。而Druid提供了以交互方式访问数据的能力，并权衡了查询的灵活性和性能而采取了特殊的存储格式。

该技术还提供了其他实用功能，例如实时节点、历史节点、Broker节点、Coordinator节点、使用基于JSON查询语言的索引服务。了解详情

7.Apache NiFi：

Apache NiFi是一套强大可靠的数据处理和分发系统，可用于对数据的流转和转换创建有向图。借助该系统可以用图形界面创建、监视、控制数据流，有丰富的配置选项可供使用，可在运行时修改数据流，动态创建数据分区。此外还可以对数据在整个系统内的流动进行数据起源跟踪。通过开发自定义组件，还可轻松对其进行扩展。

Apache NiFi的运转离不开诸如FlowFile、Processor，以及Connection等概念。

8.LinkedIn WhereHows：

WhereHows提供带元数据搜索的企业编录(Enterprise catalog)，可以让您了解数据存储在哪里，是如何保存到那里的。该工具可提供协作、数据血统分析等功能，并可连接至多种数据源和提取、加载和转换(ETL)工具。

该工具为数据发现提供了Web界面，支持API的后端服务器负责控制元数据的爬网(Crawling)以及与其他系统的集成。

9.Microsoft Cognitive Services：

该技术源自Project Oxford和Bing，提供了22种认知计算API，主要分类包括：视觉、语音、语言、知识，以及搜索。该技术已集成于Cortana Intelligence Suite。

这是一种开源技术，提供了22种不同的认知计算REST API，并为开发者提供了适用于Windows、IOS、Android以及Python的SDK。

阿里百川（baichuan.taobao.com） 是阿里巴巴集团的无线开放平台，通过“技术、商业及大数据”的开放，提供移动场景下的高内聚、开放式、行业领先的技术产品矩阵、成熟的商业组件和完善的服务体系，帮助移动开发者快速搭建APP、加速APP商业化进程，全方位赋能移动开发者及移动创业者。

转：http://www.tuicool.com/articles/rQJz2ej

除Hadoop大数据技术外，还需了解的九大技术的更多相关文章

孙荣辛｜大数据穿针引线进阶必看——Google经典大数据知识
大数据技术的发展是一个非常典型的技术工程的发展过程,荣辛通过对于谷歌经典论文的盘点,希望可以帮助工程师们看到技术的探索.选择过程,以及最终历史告诉我们什么是正确的选择. 何为大数据 "大 ...
一起来学大数据——走进Linux之门，学习大数据的重中之重
昨天我们看了有关大数据Hadoop的一些知识点,但是要在学习大数据之前,我们还是要为大数据的环境做一些的部署. 那么,今天我们就来讲讲开启我们大数据之路的Linux,跟上我们的脚步yo~ Linux介 ...
Oracle大数据解决方案》学习笔记5——Oracle大数据机的配置、部署架构和监控-1（BDA Config, Deployment Arch, and Monitoring）
原创预见未来to50 发布于2018-12-05 16:18:48 阅读数 146 收藏展开这章的内容很多,有的学了. 1. Oracle大数据机——灵活和可扩展的架构 2. Hadoop集群的 ...
【大数据】安装关系型数据库MySQL安装大数据处理框架Hadoop
作业来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3161 1. 简述Hadoop平台的起源.发展历史与应用现状. 列举发展过 ...
【大数据】安装关系型数据库MySQL 安装大数据处理框架Hadoop
作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3161 1.安装Mysql 使用命令 sudo apt-get ins ...
云计算、大数据、编程语言学习指南下载，100+技术课程免费学！这份诚意满满的新年技术大礼包，你Get了吗？
开发者认证.云学院.技术社群,更多精彩,尽在开发者会场近年来,新技术发展迅速.互联网行业持续高速增长,平均薪资水平持续提升,互联网技术学习已俨然成为学生.在职人员都感兴趣的“业余项目”. 阿里云大学 ...
大数据 -- Cloudera Manager(简称CM)+CDH构建大数据平台
一.Cloudera Manager介绍 Cloudera Manager(简称CM)是Cloudera公司开发的一款大数据集群安装部署利器,这款利器具有集群自动化安装.中心化管理.集群监控.报警等功 ...
大数据基础知识问答----spark篇，大数据生态圈
Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapredu ...
新一代大数据任务调度 - Apache DolphinScheduler喜提十大开源新锐项目 & 最具人气项目
经 10000+ 开发者公开票选,20+专家评审. 10+ 主编团打分,历经数月打磨,11 月 19 日,由InfoQ 发起并组织的[2020中国技术力量年度榜单评选]结果正式揭晓. 2020 年度十 ...

随机推荐

【转】七年IT经验的七个总结
http://www.unitymanual.com/thread-30000-1-1.html?_dsign=ebe6a043 1.分享第一条经验:“学历代表过去.能力代表现在.学习力代表未来.” ...
JavaScript 函数参数传递到底是值传递还是引用传递
tips:这篇文章是听了四脚猫的js课程后查的,深入的理解可以参看两篇博客: JavaScript数据类型--值类型和引用类型 JavaScript数据操作--原始值和引用值的操作本质在传统的观念里 ...
linux 下 ls 文件夹和文件没有颜色的解决办法
.bashrc 中加入 alias ls="ls --color"
OC-常见错误方法与函数的区别
对象方法: 1,减号 - 2,声明必须写在@interface和@end之间实现必须写在@implement 和@end之间 3,对象方法只能由对象来调用 4,对象方法归类.对象所有函数: 函 ...
php打印数组 --- 打印出漂亮格式的数组
htm的<pre>标签,能非常标准的显示数组格式 echo "<pre>";print_r($arr);echo "<pre>&quo ...
SQLSERVER2008R2正确使用索引
T1表 10000000万条数据,(插入时间36分钟,count(*)查询19秒,空间占用670M左右) 1.真正充分的利用索引比如like '张%' 就是符合SARG(符合扫描参数)标准而like ...
简谈switch case
工作中从buff里截取了一个字符串,然后和配置文件中的字符串名字对比 ,如果一样,处理,不一样,elseif 再判断,再处理! switch(){case : case :...... }先说语法,再 ...
如何在服务器上搭建git服务器
参考文章: http://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000/00137583770 ...
golang笔记——数据类型
25个关键字程序声明:import, package 程序实体声明和定义:chan, const, func, interface, map, struct, type, var 程序流程控制:go ...
大熊君大话NodeJS之------Global Objects全局对象
一,开篇分析在上个章节中我们学习了NodeJS的基础理论知识,对于这些理论知识来说理解是至关重要的,在后续的章节中,我们会对照着官方文档逐步学习里面的各部分模块,好了该是本文主角登台亮相的时候了,G ...

除Hadoop大数据技术外，还需了解的九大技术

除Hadoop大数据技术外，还需了解的九大技术的更多相关文章

随机推荐

热门专题