sqoop部署

下载安装包	sqoop-1.99.3-bin-hadoop200.tar.gz
解压	tar zxvf sqoop-1.99.3-bin-hadoop200.tar.gz
建立sqoop链接	ln -s sqoop-1.99.3-bin-hadoop200 sqoop
修改sqoop配置	cd sqoop vi server/conf/catalina.properties 修改内容如下：找到common.loader行，把/usr/lib/hadoop/lib/.jar改成你的hadoop jar 包目录例如:/home/hadoop/hadoop/share/hadoop/yarn/lib/.jar, /home/hadoop/hadoop/share/hadoop/yarn/.jar, /home/hadoop/hadoop/share/hadoop/hdfs/.jar, /home/hadoop/hadoop/share/hadoop/hdfs/lib/.jar, /home/hadoop/hadoop/share/hadoop/mapreduce/.jar, /home/hadoop/hadoop/share/hadoop/mapreduce/lib/.jar, /home/hadoop/hadoop/share/hadoop/common/lib/.jar, /home/hadoop/hadoop/share/hadoop/common/*.jar vi server/conf/sqoop.properties 找到：mapreduce.configuration.directory行，修改值为你的hadoop配置文件目录如：/home/hadoop/hadoop/etc/hadoop/ 并且替换@LOGDIR@ 和@BASEDIR@ ： 0,$ s/@LOGDIR@/logs/g 0,$ s/@BASEDIR@/base/g 然后找到你的数据库jdbc驱动复制到sqoop/lib目录下，如果不存在则创建
修改环境参数	vi /etc/profile 增加以下内容： export SQOOP_HOME=/home/hadoop/sqoop export PATH=$PATH:$SQOOP_HOME/bin export CATALINA_BASE=$SQOOP_HOME/server export LOGDIR=$SQOOP_HOME/logs/
执行环境参数	source /etc/profile
启动	./bin/sqoop.sh server start
测试	bin/sqoop.sh client 默认sqoop开启ports 12000 and 12001
停止	./bin/sqoop.sh server stop

Configure client to use your Sqoop server:

sqoop:000> set server --host your.host.com --port 12000 --webapp sqoop

显示版本：show version --all

显示连接器：show connector --all

创建连接：create connection --cid 1

Creating connection for connector with id 1

Please fill following values to create new connection object

Name: First connection

Configuration configuration

JDBC Driver Class: com.mysql.jdbc.Driver

JDBC Connection String: jdbc:mysql://mysql.server/database

Username: sqoop

Password: *****

JDBC Connection Properties:

There are currently 0 values in the map:

entry#

Security related configuration options

Max connections: 0

New connection was successfully created with validation status FINE and persistent id 1

显示连接：show connection

创建任务：create job --xid 1 --type import

sqoop:000> create job --xid 1 --type import

Creating job for connection with id 1

Please fill following values to create new job object

Name: First job

Database configuration

Table name: users

Table SQL statement:

Table column names:

Partition column name:

Boundary query:

Output configuration

Storage type:

  0 : HDFS

Choose: 0

Output directory: /user/jarcec/users

New job was successfully created with validation status FINE and persistent id 1

Throttling resources

Extractors: 20

Loaders: 10

注意创建job过程中会出现Extractors跟Loaders分别对应map 跟reduce个数

启动任务：start job --jid 1

启动任务同步执行:start job --jid 1 -s

显示任务：status job --jid 1

显示所有任务：show job -a

停止任务：stop job --jid 1

克隆连接：clone connection --xid 1

克隆任务：clone job --jid 1

运行wordcount出现:Application application_1396260476774_0001 failed 2 times due to AM Container for appattempt_1396260476774_0001_000002 exited with exitCode: 1 due to: Exception from container-launch

查看

hadoop/logs/userlogs/application_1386683368281_0001/container_1386683368281_0001_01_000001/stderr

yarn配置修改完后，可以正常跑wordcount,sqoop还是提示Exception from container-launch: 这个时候把sqoop server 重启就行

导出数据出现异常

is running beyond physical memory limits. Current usage: 1.1 GB of 1 GB physical memory used; 1.6 GB of 6 GB virtual memory used. Killing container.

修改mapred-site.xml

<name>mapred.map.child.java.opts</name>

</property>

yarn-site.xml

<name>yarn.nodemanager.vmem-pmem-ratio</name>

</property>

<name>yarn.app.mapreduce.am.resource.mb</name>

</property>

使用sqoop导入数据时，当数据量变大时，在map/reduce的过程中就会提示 java heap space error。经过总结，解决方法有两个：

1、修改每个运行子进程的jvm大小

修改mapred-site.xml文件，添加以下属性：

<name>mapred.child.java.opts</name>

</property>

<name>mapred.reduce.child.java.opts</name>

</property>

<name>mapred.map.child.java.opts</name>

</property>

2、增加map数量，

sqoop job里设置Extractors与Loaders数量

sqoop部署的更多相关文章

Hadoop生态圈-Sqoop部署以及基本使用方法
Hadoop生态圈-Sqoop部署以及基本使用方法作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与 ...
sqoop部署及使用
一.概述 sqoop是hive.hdfs.hbase等与RDMBS(mysql等)之间的沟通桥梁,主要通过JDBC与RDMBS进行交互.有两个版本sqoop1和sqoop2,sqoop1架构简单,使用 ...
sqoop部署与使用
sqoop安装 1.下载并解压 scp sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz mini1:/root/apps/ tar -zxvf sqoop-1.4 ...
数据搬运组件：基于Sqoop管理数据导入和导出
本文源码:GitHub || GitEE 一.Sqoop概述 Sqoop是一款开源的大数据组件,主要用来在Hadoop(Hive.HBase等)与传统的数据库(mysql.postgresql.ora ...
hadoop伪分布式平台组件搭建
第一部分:系统基础配置系统基础配置中主完成了安装大数据环境之前的基础配置,如防火墙配置和安装MySQL.JDK安装等第一步:关闭防火墙 Hadoop与其他组件的服务需要通过端口进行通信,防火墙的存 ...
sqoop安装部署(笔记)
sqoop是一个把关系型数据库数据抽向hadoop的工具.同时,也支持将hive.pig等查询的结果导入关系型数据库中存储.由于,笔者部署的hadoop版本是2.2.0,所以sqoop的版本是:sqo ...
大数据学习笔记——Sqoop完整部署流程
Sqoop详细部署教程 Sqoop是一个将hadoop与关系型数据库之间进行数据传输,批量数据导入导出的工具,注意,导入是指将数据从RDBMS导入到hadoop而导出则是指将数据从hadoop导出到R ...
阿里云ECS服务器部署HADOOP集群（七）：Sqoop 安装
本篇将在阿里云ECS服务器部署HADOOP集群(一):Hadoop完全分布式集群环境搭建阿里云ECS服务器部署HADOOP集群(二):HBase完全分布式集群搭建(使用外置ZooKeeper) 阿 ...
Sqoop的安装部署
在root的用户下 1):前提安装JDK环境 2):前提安装Hadoop和Hive客户端环境,如果需要导出到HBase则需要安装HBase客户端 3):下载sqoop : 命令: wget htt ...

随机推荐

学习.Net的经典网站
学习.Net的经典网站收藏还不错推荐给大家原文-- 名称:快速入门地址:http://chs.gotdotnet.com/quickstart/ 描述:本站点是微软.NET技术的快速入门网站, ...
PHP图片上传类
前言在php开发中,必不可少要用到文件上传,整理封装了一个图片上传的类也很有必要. 图片上传的流程图一.控制器调用 public function upload_file() { if (IS_P ...
spring-quartz.xml
<?xml version="1.0" encoding="UTF-8"?> <beans xmlns:xsi="http://ww ...
R中的<-和=赋值符号的细致区别
<-创建的变量的作用范围可以在整个顶层环境,而=仅仅在一个局部环境. 但要<-创建的变量如果是在函数实参传递的时候创建的,其的作用范围可以在整个顶层环境,有一个前提条件:对应的形参在函数内 ...
CPU思考
线程高并发会导致CPU load长,线程大运算量和大量线程会导致CPU利用率高因为CPU处理都是原子操作的,8核CPU在同一时刻最多也只能处理8个线程,但是因为处理的非常快,所以即使几万个简单线 ...
HMac基本介绍
基本介绍 HMAC(散列消息身份验证码: Hashed Message Authentication Code) 它不是散列函数,而是采用散列函数(MD5 or 或SHA)与共享密钥一起使用的消息身份 ...
Linux上进行单片机开发
linux上可以使用sdcc进行单片机开发 ubuntu使用 apt-get install sdcc 即可安装. 附一个比较通用的Makefile PRJ := test SRC := $(wild ...
opencv二值化处理
#include "stdafx.h"//对一张图片进行二值化处理 IplImage *pSrclmg =NULL;//载入的图片IplImage *pDeclmg =NULL;/ ...
ACM/ICPC 之 Dinic算法（POJ2112）
Optimal Milking //二分枚举最大距离的最小值+Floyd找到最短路+Dinic算法 //参考图论算法书,并对BFS构建层次网络算法进行改进 //Time:157Ms Memory:65 ...
poj1001_Exponentiation_java高精度
Exponentiation Time Limit: 500MS Memory Limit: 10000K Total Submissions: 162918 Accepted: 39554 ...

sqoop部署

sqoop部署的更多相关文章

随机推荐

热门专题