《OD学hadoop》第二周0702】的更多相关文章

大数据离线计算hadoop2.x 三周(6天) markdown文本剪辑器 罗振宇--跨年演讲,时间的朋友 http://tech.163.com/16/0101/11/BC87H8DF000915BF.html 勤奋的男人和爱笑的女人运气都不会太差. 1. 什么是Hadoop 2. hadoop生态系统架构功能与原理 3. hadoop核心模块组成 4. hadoop 2.x伪分布式环境搭建与配置.测试 一.前置课程: Linux: Java: 应用程开发>系统层开发 数据库: SQL on…
hdfs可视化界面: http://beifeng-hadoop-01:50070/dfshealth.html#tab-overview yarn可视化界面: http://beifeng-hadoop-01:8088/cluster 历史服务器可视化界面:http://beifeng-hadoop-01:19888/ sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh start datanode sbin/yarn-daem…
一.实用网站 1. linux内核版本 www.kernel.org 2. 查看网站服务器使用的系统  www.netcraft.com 二.推荐书籍 1. <Hadoop权威指南> 1-3版: Hadoop1系列 4版(目前仅有英文原版):Hadoop2系列 yarn高可用性,HA 2. <Hive权威指南> 3. <MapReduce设计模式> 4. <HBase权威指南> 5. <鸟哥的Linux私房菜> 6. <Vim使用技巧>…
一.分布式集群安装1. Hadoop模式本地模式.伪分布模式.集群模式datanode 使用的机器上的磁盘,存储空间nodemanager使用的机器上的内存和CPU(计算和分析数据) 2. 搭建环境准备工作(1)克隆虚拟机,达到3台机器,分布式的架构即可重新搭建一个hadoop环境(2)克隆完成后,需要修改ip.主机名.映射.网络eth1->eth0(3)服务组件的规划senior01: 4G内存,1核CPU,50G,namenode,datanode, nodemanager, history…
一.MapReduce编程模型1. 中心思想: 分而治之2. map(映射)3. 分布式计算模型,处理海量数据4. 一个简单的MR程序需要制定map().reduce().input.output5. 处理的数据放在input中.处理的结果放在output中6. MR程序>八股文7. MR在处理数据的时候,是由一个流向,数据在处理过程中的流向格式:以<key,value>进行流向8. input -> map() -> reduce() -> output<key…
一.磁盘管理 Linux添加新硬盘.分区.格式化.自动挂载 http://lxsym.blog.51cto.com/1364623/321643 给Linux系统新增加一块硬盘 http://www.linuxidc.com/Linux/2011-02/31868.htm 二.压缩和解压 linux下解压命令大全  http://www.cnblogs.com/eoiioe/archive/2008/09/20/1294681.html 三. 七.克隆虚拟机 1. 修改网络 (1)vi /etc…
一.打包压缩 知识点: tar -zxvf -C PATH tar -jxvf tar -zcvf tar -jcvf tar:打包命令 -z 打包同时gzip压缩 -j 打包同时bzip2 -c 打包 -x 解压 -v 显示过程信息 -f 对普通文件进行操作 -C 指定解压路径 -t 查看包内容 (1)tar -zcvf `date +"%Y_%m_%d"`etc.tar.gz /etc (2)tar -zxvf 2016_07_01etc.tar.gz -C /tmp (3)tar…
1. 1) vim /etc/udev/rules.d/-persistent-net.rules vi /etc/sysconfig/network-scripts/ifcfg-eth0 TYPE=Ethernet UUID=57d4c2c9-9e9c-48f8-a654-8e5bdbadafb8 ONBOOT=yes NM_CONTROLLED=yes BOOTPROTO=static DEFROUTE=yes IPV4_FAILURE_FATAL=yes IPV6INIT=no NAME=…
7.16 一.回顾 二.HDFS Federation(联盟) Hadoop 2.2.0发布新特性 很多的大公司都在使用:BAT HDFS Federation + HDFS HA架构 互相隔开,但是数据存储共用 1.新特性介绍 ViewFs Guide 视图文件系统 HDFS Snapshots 快照 在某一时刻某一个瞬间在整个文件系统中,它存储的文件具体的情况 比如:存储多少文件.它的副本数...一些信息 好处:备份.恢复 Edits Viewer Image Viewer 用来查看fsim…
一.大数据的落地点 1.数据出售 数据商城:以卖数据为公司的核心业务 2. 数据分析 百度统计 友盟 GA IBM analysis 3.搜索引擎 4. 推荐系统 mahout 百分比 5.精准营销 (1)广告投入:网站所有者集成广告联盟的js->访问者访问页面->js发送用户数据->广告联盟发送一个可以报价的广告位信息给所有的广告公司(报价是否.价格多少) ->广告公司接受到这个报价信息,根据携带的用户信息计算用户点击的概率(用户点击模型)->广告公司将是否报价信息以及报价…