CDH- 测试mr】的更多相关文章

最近在研究数据挖掘相关的东西,在本地 Mac 环境搭建了一套伪分布式的 hadoop 开发环境,采用CDH发行版本,省时省心. 参考来源 How-to: Install CDH on Mac OSX 10.9 Mavericks 官网这篇文章有的地方格式不对,部分链接也失效,运行时还会有一些问题,所以这里重新记录如下. 安装 JDK JDK 1.8 下载地址 安装完成后路径应该是 /Library/Java/JavaVirtualMachines/jdk1.8.x_xx.jdk/Contents…
作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 欢迎转载,转载请注明出处. 以前Eclipse上写好的MapReduce项目经常是打好包上传到Hadoop测试集群来直接运行,运行遇到问题的话查看日志和修改相关代码来解决.找时间配置了Windows上Eclispe远程提交MR程序到集群方便调试.记录一些遇到的问题和解决方法. 系统环境:Windows7 64,Eclipse Mars,Maven3.3.9,Hadoop2.6.0-CDH5.4.0. 一.配置…
cdh的mr样例算法的jar包在 [zc.lee@ip---- hadoop-0.20-mapreduce]$ pwd /opt/cloudera/parcels/CDH--.cdh5./lib/hadoop-0.20-mapreduce 查看该目录下的文件 [zc.lee@ip---- hadoop-0.20-mapreduce]$ ll total drwxr-xr-x root root Jan bin -rw-r--r-- root root Jan CHANGES.txt drwxr-…
一:准备Linux环境[安装略]        a.修改主机名                vim /etc/sysconfig/network                NETWORKING=yes                HOSTNAME=kevin1         b.修改IP(通过修改配置文件)                 vim /etc/sysconfig/network-scripts/ifcfg-eth0                             …
关于素数的基本介绍请参考百度百科here和维基百科here的介绍 首先介绍几条关于素数的基本定理: 定理1:如果n不是素数,则n至少有一个( 1, sqrt(n) ]范围内的的因子 定理2:如果n不是素数,则n至少有一个(1, sqrt(n) ]范围内的素数因子 定理3:定义f(n)为不大于n的素数的个数,则 f(n) 近似等于 n/ln(n) (ln为自然对数) ,具体请参考here 求不超过n的素数                         本文地址 算法1:埃拉托斯特尼筛法,该算法的…
Hadoop 中利用 mapreduce 读写 mysql 数据   有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv.uv 数据,然后为了实时查询的需求,或者一些 OLAP 的需求,我们需要 mapreduce 与 mysql 进行数据的交互,而这些特性正是 hbase 或者 hive 目前亟待改进的地方. 好了言归正传,简单的说说背景.原理以及需要注意的地方: 1.为了方便 MapReduce 直接访问关系型数据库(Mysql,Oracle),Hadoop提供了DBI…
配置hadoop 2.1 上传hadoop包 2.2 解压hadoop包 首先在根目录下创建一个cloud目录 mkdir /cloud tar -zxvf hadoop-2.2.0.tar.gz -C /cloud/ tar: 打包和解包 -z:用来处理gz格式 x:代表释放 c:代表创建 v:显示解压过程详情 f:file -c:把文件解压到什么地方 2.3 配置hadoop伪分布式(要修改5个配置文件) /cloud/hadoop-2.2.0/etc/hadoop 修改配置文件 第一个:h…
Creating a Hadoop-2.x project in Eclipse hortonworks:MapReduce Ports http://docs.hortonworks.com/HDPDocuments/HDP1/HDP-1.2.0/bk_reference/content/reference_chap2_2.html hadoop-1.x 集群默认配置和常用配置 http://www.cnblogs.com/ggjucheng/archive/2012/04/17/245459…
前面讲过了怎么通过mapreduce把mysql的一张表的数据放到另外一张表中,这次讲的是把mysql的数据读取到hdfs里面去 具体怎么搭建环境我这里就不多说了.参考 通过mapreduce把mysql的一张表的数据导到另外一张表中 也在eclipse里面创建一个mapreduce工程 具体的实现代码 package com.gong.mrmysql; import java.io.DataInput; import java.io.DataOutput; import java.io.IOE…
怎么安装hadoop集群我在这里就不多说了,我这里安装的是三节点的集群 先在主节点安装mysql 启动mysql 登录mysql 创建数据库,创建表格,先把数据加载到表格 t ,表格t2是空的 mysql> create database mrtest; Query OK, 1 row affected (0.05 sec) mysql> use mrtest; Database changed mysql> CREATE TABLE `t` ( -> `id` int DEFAU…
下载hadoop压缩包设置hadoop环境变量设置hdfs环境变量设置yarn环境变量设置mapreduce环境变量修改hadoop配置设置core-site.xml设置hdfs-site.xml设置yarn-site.xml设置mapred-site.xml设置slave文件分发配置启动hdfs格式化namenode启动hdfs检查hdfs启动情况启动yarn测试mr任务hadoop本地库hdfs yarn和mapreduce参数 下载hadoop压缩包 去hadoop官网下载hadoop-2…
-------------------------Oozie-------------------- [一.部署] 1)部署Oozie服务端 [root@cMaster~]#sudo yum install oozie #cMaster上以root权限执行,部署Oozie服务端 2)部署Oozie客户端 [root@iClient~]f#sudo yum install oozie-client [二.配置文件] 3)修改/etc/oozie/conf/oozie-env.sh文件 #expor…
1.票据的生成 kdc服务器操作,生成用于hive身份验证的principal 1.1.创建principal # kadmin.local -q “addprinc -randkey hive/yjt” 1.2.创建秘钥文件 # kadmin.local -q “xst  -norankey  -k  /etc/hive.keytab hive/yjt” 拷贝秘钥文件到集群,root操作或者有root权限的普通用户操作 # scp /etc/hive.keytab 192.168.0.230:…
一.Hadoop的安装模式有3种 ①单机模式:不能使用HDFS,只能使用MapReduce,所以单击模式主要用于测试MR程序. ②伪分布式模式:用多个线程模拟真实多台服务器,即模拟真实的完全分布式环境. ③完全分布式模式:用多台机器(或启动多个虚拟机)来完成部署集群. 二.安装主要涉及的内容 ①JDK ②配置主机名.hosts文件以及免密登录 ③修改hadoop的配置文件,主要涉及以下几个配置文件(hadoop-2.7.7/etc/hadoop) 1)hadoop-env.sh:这里主要修改jd…
转自:http://kaimingwan.com/post/alluxio/spark-on-alluxiohe-mr-on-alluxioce-shi-gai-jin-ban 1. 介绍 2. 准备数据 2.1 清空系统缓存 3. MR测试 3.1 MR without alluxio 3.2 MR with alluxio 3.3 问题补充 4. spark测试 4.1 spark without alluxio 4.2 spark with alluxio 5. 第一阶段实验总结 6. I…
前吃人的故事开始了,金钱是如何吃人的呢?我在想ing,还没想通,一起吧,哈哈: 入题,别胡扯,误人子弟!!!! CM@@!!!!!!....................., 先来张monitor picture吧,界面貌似有点面熟哦,我还没时间验证,但大致我已经可以确定了,最有可能的就是改写了界面,哈哈,不告诉你,在此也就不多说了,还是那句话,文档有点跑题,还有点跳跃,这个东西怎么说呢?是知音的不言自明,否则咱挣个面红耳赤的,心里还在骂我瞎扯淡,还是不说了; 人贱缺少折腾,事件贱还是因为缺少…
错误:HBase服务出现 该运行状况测试不良,因为 Service Monitor 未找到活动 Master 如果重启服务之后无法排除该问题,请执行如下操作(CM换成自己的版本号): rm -f /opt/cloudera-manager/cm-5.10.1/lib/cloudera-scm-agent/cm_guid 每台机器都执行一遍,然后重启客户端代理,执行如下代码: /opt/cm-5.10.1/etc/init.d/cloudera-scm-agent start…
1. CDH简介 简单来说,Cloudera Manager是一个拥有集群自动化安装.中心化管理.集群监控.报警功能的一个工具(软件),使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率. 2.cloudera manager的功能 1) 管理:对集群进行管理,如添加.删除节点等操作. 2) 监控:监控集群的健康情况,对设置的各种指标和系统运行情况进行全面监控. 3) 诊断:对集群出现的问题进行诊断,对出现的问题给出建议解决方案. 4) 集成:多组…
1.随便在哪个目录新增一个文档.内容随便输入 mkdir words 2.在hdfs 中新建文件输入目录 ./hdfs dfs -mkdir /test 3.把新建的文档 (/home/hadoop/test/words)  上传到新建的(test)  hdfs目录 ./hdfs dfs -put /home/hadoop/test/words /test/ 4.查看文档是否成功 ./hdfs dfs -ls 5.执行 wordsCount按列  计算 bin/hadoop jar share/…
一. 参考 https://www.cnblogs.com/bovenson/p/5801536.html [root@node- test]# chown hdfs:hdfs /root/test/* [root@node-1 test]# chown hdfs:hdfs /root/test [root@node-1 test]# cd /var/lib/hadoop-hdfs/ [root@node-1 hadoop-hdfs]# ls [root@node-1 hadoop-hdfs]#…
系列目录 写在前面 从Hadoop出现至今,大数据几乎就是Java平台专属一般.虽然Hadoop或Spark也提供了接口可以与其他语言一起使用,但作为基于JVM运行的框架,Java系语言有着天生优势.而且能找到的与大数据框架如Hadoop等使用介绍的文章也都以Java语言作为示例居多.许多C#er为了转投大数据怀抱也开始学习Java.微软为了拥抱大数据在这方面也做了许多,提供了一些工具及库使C#可以更好的与Hadoop等协同工作.本系列中我们一同学习如何以我们熟悉语言来使用Hadoop等大数据平…
1.Hadoop的主要应用场景: a.数据分析平台. b.推荐系统. c.业务系统的底层存储系统. d.业务监控系统. 2.开发环境:Linux集群(Centos64位)+Window开发模式(window10,64位操作系统).   使用技术:hadoop,hbase,hive,flume,oozie,sqoop,nginx,tomcat,spring,mybatis,springmvc,mysql等等.Hdfs为海量的数据提供存储,MapReduce为海量的数据提供计算.     此项目使用…
目录 1. 问题描述 最近在使用Mahout里的推荐算法进行实验,由于业务需求,需要修改Mahout源码,将原本输出到HDFS上的结果输出到HBase中.由于Mahout发布的源码都是Maven项目,所以在对项目进行编译打包时遇到了一些问题,在此文章中进行记录总结. 2. Mahout源码下载 目前,Mahout最新版本已经更新到0.13,从基于Hadoop平台迁移到了Spark,从Mahout官网可以了解其发展历程和框架特性. 官网地址:http://mahout.apache.org/ Ma…
一.概述 Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具,结构化数据可以是Mysql.Oracle等RDBMS. Sqoop底层用MapReduce程序实现抽取.转换.加载,MapReduce天生的特性保证了并行化和高容错率,而且 相比Kettle等传统ETL工具,任务跑在Hadoop集群上,减少了ETL服务器资源的使用情况.在特定场景下,抽取过程会有很大的性能提升.    如果要用Sqoop,必须正确安装并配置Hadoop,因依赖于本地的hadoop环境启动MR程序:my…
1 软硬件准备 1.1 准备三个节点 序号 主机名 内存 CPU IP地址 角色 1 cdh1 8G 8核心 192.168.5.78 cloudera-scm-server,mysql 2 cdh2     4G 8核心 192.168.5.79 cloudera-scm-agent 3 cdh2 4G 8核心 192.168.5.80 cloudera-scm-agent 1.2 软件版本信息 OS:RedHat EL 6.5 CDH: 5.6.0 Java:1.7 MySQL:5.6  …
虽然我已经装了个Cloudera的CDH集群(教程详见:http://www.cnblogs.com/pojishou/p/6267616.html),但实在太吃内存了,而且给定的组件版本是不可选的,如果只是为了研究研究技术,而且是单机,内存较小的情况下,还是建议安装Apache的原生的集群拿来玩,生产上自然是Cloudera的集群,除非有十分强大的运维. 我这次配了3台虚拟机节点.各给了4G,要是宿主机内存就8G的,可以搞3台2G,应该也是ok的. Apache Hadoop集群离线安装部署(…
1       情况概述 公司的开发集群在周末莫名其妙的主节点Hadoop-1的启动固态盘挂了,由于CM.HDFS的NameNode.HBase的Master都安装在Hadoop-1,导致了整个集群都无法使用,好在数据不在启动盘. Hadoop-1的系统必须重装,但是不能重装集群,因为要将之前的数据全部保留恢复,所以只能通过集群恢复的手段将集群重新跑起来. 主要服务角色安装情况: Hadoop-1: CM,HDFS( NN,DN ),HBase(HMaster, RegionServer),YA…
离线安装Cloudera Manager 5和CDH5(最新版5.1.3) 完全教程 关于CDH和Cloudera Manager CDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境. Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的组件,对集…
在spark安装之前,应该已经安装了hadoop原生版或者cdh,因为spark基本要基于hdfs来进行计算. 1. 下载 spark:  http://mirrors.cnnic.cn/apache//spark/spark-1.4.1/spark-1.4.1-bin-hadoop2.3.tgz scala:   http://downloads.typesafe.com/scala/2.10.5/scala-2.10.5.tgz?_ga=1.171364775.609435662.14416…
集群节点数量3 个 192.168.1.170 cdh-master 192.168.1.171 cdh-slave-1 192.168.1.171 cdh-slave-2 一.安装CentOS6.5 (64位)并搭建基本环境,包括: (1)添加sudo 权限 (2)修改主机名.网关.静态IP地址.DNS (3)关闭SELINUX.防火墙 可参考文章 (4)修改系统时区.配置ntp服务(首先可选宿主机器配置ntp server,参考文章) 二.克隆为三台机器,分别修改静态IP 地址.MAC.主机…