大数据除了Hadoop还有哪些常用的工具?
大数据除了Hadoop还有哪些常用的工具?
1.Hadoop大数据生态平台
Hadoop 是一个能够对大量数据进行分布式处理的软件框架。
但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。
Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。
Hadoop 还是可伸缩的,能够处理 PB 级数据。
此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
2.Spark,大数据分析的“瑞士军刀”
Spark 也是 Apache 基金会的开源项目,它由加州大学伯克利分校的实验室开发,是另外一种重要的分布式计算系统。
它在 Hadoop 的基础上进行了一些架构上的改良。
Spark 与 Hadoop 最大的不同点在于,Hadoop 使用硬盘来存储数据,而 Spark 使用内存来存储数据,因此 Spark 可以提供超过Hadoop100 倍的运算速度。
但是,由于内存断电后数据会丢失,Spark 不能用于处理需要长期保存的数据。
目前 Spark 完成了大部分的数据挖掘算法由单机到分布式的改造,并提供了较方便的数据分析可视化界面。
3.Storm,实时大数据处理工具
Storm 是 Twitter 主推的分布式计算系统,它由 BackType 团队开发,是 Apache 基金会的孵化项目。
它在 Hadoop 的基础上提供了实时运算的特性,可以实时地处理大数据流。
不同于 Hadoop 和Spark,Storm 不进行数据的收集和存储工作,它直接通过网络实时地接收数据并且实时地处理数据,然后直接通过网络实时地传回结果。
4.Apache Drill
为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google’s Dremel。
5.RapidMiner
RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。
耶鲁大学已成功地应用在许多不同的应用领域,包括文本挖掘,多媒体挖掘,功能设计,数据流挖掘,集成开发的方法和分布式数据挖掘。
6.Pentaho BI
Pentaho BI 平台不同于传统的BI 产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。
其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商务智能应用的开发。
它的出现,使得一系列的面向商务智能的独立产品如Jfree、Quartz等等,能够集成在一起,构成一项项复杂的、完整的商务智能解决方案。
===============
1.开源大数据生态圈Hadoop HDFS、Hadoop MapReduce, HBase、Hive 渐次诞生,早期Hadoop生态圈逐步形成.开源生态圈活跃,并免费,但Hadoop对技术要求高,实时性稍差.
2. 商用大数据分析工具一体机数据库/数据仓库(费用很高)
IBM PureData(Netezza), Oracle Exadata, SAP Hana等等.数据仓库(费用较高)
Teradata AsterData, EMC GreenPlum, HP Vertica 等等.数据集市(费用一般)
QlikView、 Tableau 、国内永洪科技Yonghong Data Mart 等等.
前端展现用于展现分析的前端开源工具有JasperSoft,Pentaho, Spagobi, Openi, Birt等等.
用于展现分析商用分析工具有Cognos,BO, Microsoft, Oracle,Microstrategy,QlikView、 Tableau 、国内永洪科技Yonghong Z-Suite等等.
===============
Top Tools (Platforms) / Technical Skills in Big Data Analytics:
第一个就是 Hadoop
Hadoop: Hadoop is one of the most in-demand tools in the field. It is an open source platform for distributed data storage.
NoSQL: Common database that are often the source of data crunched in Hadoop. In the world of Big Data Hadoop and NoSQL are opposite sides of a virtual cycle.
Flume: it allows businesses to collect, aggregate and move massive amount of log data.
Chef: Chef is a configuration management tool for server management. It can integrate with public cloud systems like Rackspace, Amazon EC2, Google Cloud Platform, OpenStack, Microsoft Azure etc.
ABAP: a programming tool from SAP.
Pig: a platform for analyzing large data sets with ease, better optimization and extensibility.
HBase: an open source platform for non-relational and distributed database
Cloudera: One of the most popular next-generation data management and analytics platforms. It provides one of the fastest, secure and fastest Apache Hadoop-based software, support and services.
MapReduce: a programming model for processing and generating large data sets on a cluster.
Cassandra: NoSQL database system designed for handling large data sets across commodity servers.
PaaS: a cloud computing service that provides platform to customers to develop, run and manage applications in the cloud without the need of building and maintaining complex underlying infrastructure.
YARN: a large-scale, distributed operating system for Big Data applications.
Hive: another platform analyzing large data sets. First created at Facebook, Hive is a data warehouse system for Hadoop that allows easy data summarization, ad-hoc queries, and analysis of large data sets.
大数据除了Hadoop还有哪些常用的工具?的更多相关文章
- 大数据:Hadoop入门
大数据:Hadoop入门 一:什么是大数据 什么是大数据: (1.)大数据是指在一定时间内无法用常规软件对其内容进行抓取,管理和处理的数据集合,简而言之就是数据量非常大,大到无法用常规工具进行处理,如 ...
- 大数据和hadoop有什么关系?
本文资料来自百度文库相关文档 Hadoop,Spark和Storm是目前最重要的三大分布式计算系统,Hadoop常用于离线的复杂的大数据处理,Spark常用于离线的快速的大数据处理,而Storm常用于 ...
- 大数据和Hadoop平台介绍
大数据和Hadoop平台介绍 定义 大数据是指其大小和复杂性无法通过现有常用的工具软件,以合理的成本,在可接受的时限内对其进行捕获.管理和处理的数据集.这些困难包括数据的收入.存储.搜索.共享.分析和 ...
- 大数据之Hadoop技术入门汇总
今天,小编对Hadoop入门学习知识进行了汇总,帮助大家更好地入手大数据.小编关于Hadoop入门总共发写了12篇原创文章,文章是参照尚硅谷大数据视频教程来进行撰写的. 今天,小编带你解锁正确的阅读顺 ...
- 大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用 ...
- [Hadoop 周边] 浅谈大数据(hadoop)和移动开发(Android、IOS)开发前景【转】
原文链接:http://www.d1net.com/bigdata/news/345893.html 先简单的做个自我介绍,我是云6期的,黑马相比其它培训机构的好偶就不在这里说,想比大家都比我清楚: ...
- 大数据和Hadoop生态圈
大数据和Hadoop生态圈 一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop ...
- 大数据测试之hadoop集群配置和测试
大数据测试之hadoop集群配置和测试 一.准备(所有节点都需要做):系统:Ubuntu12.04java版本:JDK1.7SSH(ubuntu自带)三台在同一ip段的机器,设置为静态IP机器分配 ...
- 老李分享:大数据框架Hadoop和Spark的异同 1
老李分享:大数据框架Hadoop和Spark的异同 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.如果对课程感兴趣,请大家咨 ...
随机推荐
- luoguP1198 [JSOI2008]最大数
https://www.luogu.org/problem/P1198 update!!! 经过老师的讲解,惊人的发现这题有用更简单数据结构维护的解法,而越简单的数据结构(如果能够用的话),越好(实现 ...
- idea快捷键的使用
IntelliJ IDEA 问题解决:1.乱码,主要是快捷键的字样显示乱码 中文字体显示乱码? 2.菜单项等的字体太小,怎么能设置下? -------------------------------- ...
- 201871010106-丁宣元 《面向对象程序设计(java)》第八周学习总结
201871010106-丁宣元 <面向对象程序设计(java)>第八周学习总结 正文开头: 项目 内容 这个作业属于哪个课程 https://home.cnblogs.com/u/nwn ...
- 前端学习笔记--CSS布局--层定位
1.层定位概述: z-index:前后叠加顺序 2.position属性: 3.fixed: 2.relative: 移动后: static没有往上移动占据box1的位置. 3.absolute: 移 ...
- Nginx配置文件nginx.conf(八)
原文链接:https://www.cnblogs.com/knowledgesea/p/5175711.html 在nginx.conf的注释符号是#. 默认的nginx.conf内容为: #user ...
- mysql select limit 大数据量查询 性能终极提升方法
还是广告位 我们的使用mysql的时候总是想当然的使用 select × from tables where a>0 order by id desc limit 500000,200 当我们真 ...
- pycharm配置mysql数据库连接访问
如图,这是打开后的默认界面.找到界面的“Data base”选项并点击. 这里可以看到当前项目配置的数据库,如果为空,表示未配置数据库.我们可以点击上方“+”号来配置,点击“+”号.在下拉框中我们选择 ...
- 3.GO-项目结构、包访问权限、闭包和值传递引用传递
3.1.goland中项目结构 (1)在goland中创建标准Go项目 (2)goland配置 创建项目Learn-Go file-settings-go-GOPATH-添加 在项目目录下创建src目 ...
- du和ls的区别:如何正确计算文件大小
上一篇文章写到的权限检查脚本,后来我又加入了 apk size 对比的功能,分享给组内同事使用后,暴露出一个问题:脚本输出的 apk size 和 Jenkins 出包信息以及电脑上显示的存储大小都有 ...
- Web协议详解与抓包实战:HTTP1协议-HTTP 响应行(3)
一.HTTP 响应行 二.响应码分类:1xx 三.响应码分类: 2xx 1. 201 Created: 有新资源在服务器端被成功创建 2.207 Multi-Status:RFC4918 ,在 WEB ...