hadoop之 hadoop能为企业做什么？

hadoop是什么？

Hadoop是一个开源的框架，可编写和运行分不是应用处理大规模数据，是专为离线和大规模数据分析而设计的，并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS（文件系统，数据存储技术相关）+ Mapreduce（数据处理），Hadoop的数据来源可以是任何形式，在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能，具有更灵活的处理能力，不管任何数据形式最终会转化为key/value，key/value是基本数据单元。用函数式变成Mapreduce代替SQL，SQL是查询语句，而Mapreduce则是使用脚本和代码，而对于适用于关系型数据库，习惯SQL的Hadoop有开源工具hive代替。

hadoop能做什么？

hadoop擅长日志分析，facebook就用Hive来进行日志分析，2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析；淘宝搜索中的自定义筛选也使用的Hive；利用Pig还可以做高级的数据处理，包括Twitter、LinkedIn 上用于发现您可能认识的人，可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是！在Yahoo！的40%的Hadoop作业是用pig运行的，包括垃圾邮件的识别和过滤，还有用户特征建模。（2012年8月25新更新，天猫的推荐系统是hive，少量尝试mahout！）

hadoop能为我司做什么？大数据量存储：分布式存储日志处理: Hadoop擅长这个海量计算: 并行计算 ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统机器学习: 比如Apache Mahout项目搜索引擎:hadoop + lucene实现数据挖掘：目前比较流行的广告推荐大量地从文件中顺序读。HDFS对顺序读进行了优化，代价是对于随机的访问负载较高。数据支持一次写入，多次读取。对于已经形成的数据的更新不支持。数据不进行本地缓存（文件很大，且顺序读没有局部性）任何一台服务器都有可能失效，需要通过大量的数据复制使得性能不会受到大的影响。用户细分特征建模个性化广告推荐智能仪器推荐 hadoop实际应用： Hadoop+HBase建立NoSQL分布式数据库应用

Flume+Hadoop+Hive建立离线日志分析系统

Flume+Logstash+Kafka+Spark Streaming进行实时日志处理分析

酷狗音乐的大数据平台

京东的智能供应链预测系统

说明：整理于网络

http://www.cnblogs.com/zhangs1986/p/6528227.html

http://blog.sina.com.cn/s/blog_687194cd01017lgu.html

hadoop之 hadoop能为企业做什么？的更多相关文章

hadoop基础----hadoop理论(四)-----hadoop分布式并行计算模型MapReduce具体解释
我们在前一章已经学习了HDFS: hadoop基础----hadoop理论(三)-----hadoop分布式文件系统HDFS详细解释我们已经知道Hadoop=HDFS(文件系统,数据存储技术相关)+ ...
[Hadoop 周边] Hadoop资料收集【转】
原文网址: http://www.iteblog.com/archives/851 最直接的学习参考网站当然是官网啦: http://hadoop.apache.org/ Hadoop http:// ...
[Hadoop 周边] Hadoop和大数据：60款顶级大数据开源工具（2015-10-27）【转】
说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hado ...
hadoop数据[Hadoop] 实际应用场景之 - 阿里
上班之余抽点时间出来写写博文,希望对新接触的朋友有帮助.明天在这里和大家一起学习一下hadoop数据 Hadoop在淘宝和支付宝的应用从09年开始,用于对海量数据的离线处置,例如对日志的分析,也涉及内 ...
Hadoop：Hadoop基本命令
http://blog.csdn.net/pipisorry/article/details/51223877 常用命令启用hadoop start-dfs.sh start-hbase.sh 停止 ...
Hadoop基础-Hadoop的集群管理之服役和退役
Hadoop基础-Hadoop的集群管理之服役和退役作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 在实际生产环境中,如果是上千万规模的集群,难免一个一个月会有那么几台服务器出点故 ...
Hadoop学习------Hadoop安装方式之(三)：分布式部署
这里为了方便直接将单机部署过的虚拟机直接克隆,当然也可以不这样做,一个个手工部署. 创建完整克隆——>下一步——>安装位置.等待一段时间即可. 我这边用了三台虚拟机,分别起名master, ...
Hadoop记录-hadoop集群常见问题汇总
[问题1]HBase Shell:ERROR: org.apache.hadoop.hbase.IPc.ServerNotRunningYetException: Server is not runn ...
一、hadoop 及 hadoop的环境搭建
一.Hadoop引言 Hadoop是在2006年雅虎从Nutch(给予Java爬虫框架)工程中剥离一套分布式的解决方案.该方案参考了Goggle的GFS(Google File System)和Map ...
hadoop基础----hadoop实战(七)-----hadoop管理工具---使用Cloudera Manager安装Hadoop---Cloudera Manager和CDH5.8离线安装
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍简介我们在上篇文章中已经了解了CDH,为了后续的学习,我们本章就来 ...

随机推荐

Beta冲刺（1/7）
Part.1 开篇队名:彳艮彳亍团队组长博客:戳我进入作业博客:班级博客本次作业的链接 Part.2 成员汇报组员1(组长)柯奇豪过去两天完成了哪些任务熟悉并编写小程序的自定义控件展示G ...
有关C++模板inline的高性能在lambda与function的体现
前两天在群里跟人讨论到写库时对于lambda和function的取舍,跑了写测试查了些资料后基本得出结论: 如果没有自由变量的情况下,一般不要用function. 如果有自由变量的话,C++中的lam ...
python实现归并排序算法
归并排序(英语:Merge sort,或mergesort),是创建在归并操作上的一种有效的排序算法,效率为O(nlogn). 1945年由约翰·冯·诺伊曼首次提出.该算法是采用分治法(Divide ...
python中两种栈实现方式的性能对比
在计算机的世界中,同一个问题,使用不同的数据结构和算法实现,所使用的资源有很大差别为了方便量化python中算法的资源消耗,对性能做测试非常有必要,这里针对stack做了python语言下的性能分 ...
Spring Boot 单元测试详解+实战教程
Spring Boot 的测试类库 Spring Boot 提供了许多实用工具和注解来帮助测试应用程序,主要包括以下两个模块. spring-boot-test:支持测试的核心内容. spring-b ...
Liferay7 BPM门户开发之3: Activiti开发环境搭建
下载地址: http://activiti.org/download.html 源码: https://github.com/Activiti/Activiti 环境准备(检查项): JDK 1.7 ...
[EXP]Cisco RV110W - Password Disclosure / Command Execution
#!/usr/bin/env python2 ##### ## Cisco RV110W Password Disclosure and OS Command Execute. ### Tested ...
[视频]K8飞刀 BadUSB Teensy自动种马演示教程
[视频]K8飞刀 Teensy USB自动种马演示教程链接: https://pan.baidu.com/s/13bM1XSLrhlf90FDmPGfo1g 提取码: gy2q 源码:https:/ ...
python numpy安装
一.python下的numpy安装方法第一步:安装python,这里不做介绍. 第二步:打开cmd看python是否安装成功. 第三步:输入 python -m pip install -U pip ...
Windows下为 Eclipse 配置 C/C++ 编译环境（转）
1.Eclipse及CDT的安装 CDT的全称是C/C++ DevelopmentTools,CDT使得Eclipse能够支持C/C++的开发.直接下载 eclipse CDT 集成版下载地址:ht ...

hadoop之 hadoop能为企业做什么？

hadoop之 hadoop能为企业做什么？的更多相关文章

随机推荐

热门专题