[hadoop读书笔记]译者序】的更多相关文章

一.并行数据库系统 新一代高性能的数据库系统,是在MPP和集群并行计算环境的基础上建立的数据库系统. MPP:大规模并行处理计算机:Massive Parallel Processor.指的是一种处理机技术.由大量通用微处理器构成的多处理机系统,适合多指令流多数据流处理.这样的系统是由许多松耦合处理单元组成的,要注意的是这里指的是处理单元而不是处理器.每个单元内的CPU都有自己私有的资源,如总线.内存.硬盘等.在每个单元内都有操作系统和管理数据库的实例复本.这种结构最大的特点在于不共享资源. 并…
Hadoop读书笔记(一)Hadoop介绍:http://blog.csdn.net/caicongyang/article/details/39898629 1.shell操作 1.1全部的HDFS shell操作命名能够通过hadoop fs获取: [root@hadoop ~]# hadoop fs Usage: java FsShell            [-ls <path>]            [-lsr <path>]            [-du <…
Hadoop读书笔记(一)Hadoop介绍:http://blog.csdn.net/caicongyang/article/details/39898629 Hadoop读书笔记(二)HDFS的shell操作:http://blog.csdn.net/caicongyang/article/details/41253927 Hadoop读书笔记(三)Java API操作HDFS:http://blog.csdn.net/caicongyang/article/details/41290955…
安装hive 1.下载hive-2.1.1(搭配hadoop版本为2.7.3) 2.解压到文件夹下 /wdcloud/app/hive-2.1.1 3.配置环境变量 4.在mysql上创建元数据库hive_metastore编码选latin,并授权 grant all on hive_metastore.* to 'root'@'%' IDENTIFIED BY 'weidong' with grant option; flush privileges; 5.新建hive-site.xml,内容…
导入命令 sqoop import --connect jdbc:mysql://192.168.200.250:3306/sqoop --table widgets --hbase-create-table --hbase-table WIDGETS_IN_HBASE --column-family product --hbase-row-key id --username 'root' -P 说明:--connect jdbc:mysql://192.168.200.250:3306/sqo…
P573 从mysql导入数据到hdfs 第一步:在mysql中创建待导入的数据 1.创建数据库并允许所有用户访问该数据库 mysql -h 192.168.200.250 -u root -p CREATE DATABASE sqoop; GRANT ALL PRIVILEGES ON *.* TO 'root'@'%'; 或 GRANT SELECT, INSERT, DELETE,UPDATE ON *.* TO 'root'@'%'; FLUSH PRIVILEGES; 查看权限:sel…
P375 Hadoop管理工具 dfsadmin - 查询HDFS状态信息,管理HDFS. bin/hadoop dfsadmin -help 查询HDFS基本信息 fsck - 检查HDFS中文件的健康状况,查找在所有datanode中都确实的块以及过多或过少副本的块 [root@hadoop-allinone-200-123 bin]# ./hadoop fsck / Connecting to namenode via http://hadoop-allinone-200-123.wdcl…
P322 运行datanode和tasktracker的典型机器配置(2010年) 处理器:两个四核2-2.5GHz CPU 内存:16-46GN ECC RAM 磁盘存储器:4*1TB SATA 磁盘 网络:千兆以太网 Hadoop一般使用多核CPu和多磁盘提升硬件功能 P323 小集群VS大集群 对于几十个节点的小集群,在master上同时运行namenode和jobtracker通常没问题 但是随着集群节点增加,namenode的内存压力将逐步扩大,此时namenode和jobtracke…
P205 MapReduce的两种运行机制 第一种:经典的MR运行机制 - MR 1 可以通过一个简单的方法调用来运行MR作业:Job对象上的submit().也可以调用waitForCompletion(),用于提交以前没有提交的作业,并等待其完成. Hadoop执行MR的方法依赖于两个配置设置 mapred.job.tracker - 决定执行MR程序的方式 如果设置为local默认值,表示使用本地的作业运行器,在单个JVM上运行整个作业,用于小数据集测试 如果设置为主机端口对,那么被解释为…
P92 压缩 P102 序列化 序列化:将结构化对象转为字节流便于在网上传输或写到磁盘进行永久性存储的过程 用于进程之间的通信或者数据的永久存储 反序列化:将字节流转为结构化对象的逆过程 Hadoop中的序列化:在Hadoop中,系统中多个节点上进程间的通信是通过远程过程传输RPC来实现的. RPC协议将消息序列化成二进制流后发送到远程节点,远程节点接着将二进制流反序列化成原始信息. Avro:一个独立于编程语言,并基于 IDL的序列化框架,非常适合用于Hadoop的大规模数据处理…