在使用命令导数据过程中,出现如下错误 sqoop import --hive-import --connect jdbc:oracle:thin:@192.168.29.16:1521/testdb --username NAME --passord PASS --verbose -m 1 --table T_USERINFO 错误1:File does not exist: hdfs://opt/sqoop-1.4.4/lib/commons-io-1.4.jar FileNotFoundEx…
sqoop从oracle定时增量导入数据到hive 感谢: http://blog.sina.com.cn/s/blog_3fe961ae01019a4l.htmlhttp://f.dataguru.cn/thread-94073-1-1.html sqoop.metastore.client.record.passwordhttp://blog.csdn.net/ryantotti/article/details/14226635 开启sqoop metastore step 1 创建sqoo…
oracle数据库中Date类型倒入到hive中出现时分秒截断问题解决方案 1.问题描述: 用sqoop将oracle数据表倒入到hive中,oracle中Date型数据会出现时分秒截断问题,只保留了‘yyyy-MM-dd',而不是’yyyy-MM-dd HH24:mi:ss'格式的,后面的‘HH24:mi:ss’被自动截断了,在对时间要求到秒级的分析处理中这种截断会产生问题. 2.解决方案: 在用sqoop倒入数据表是,添加--map-column-hive 和--map-column-jav…
简单配置了sqoop之后开始使用,之前用的时候很好用,也不记得有没有启动hivemetastore,今天用的时候没有启动,结果导入数据时,如果使用了db.tablename,就会出现找不到数据库的错,一直找到不到原因, 换了sqoop还是一样,后来查了一下,在sqoop/conf下多了一个metastore.db的文件夹,我把这个文件删了,然后把hive-site.xml的文件从hive/conf中复制过来. 此时问题解决…
oracle导入数据时候注意点: 1.imp system/admin@oracle9i file=E:\shujukuwenjian\2014-04-01.dmp fromuser=ptb_super touser=ptb_super ignore=y 这种方式导入数据,其实导入的只是相应的表结构和表数据,不能够导入相应的视图,存储过程,包,函数 2.imp system/admin@oracle9i file=E:\shujukuwenjian\2014-04-01.dmp fromuser…
sqoop工具从oracle导入数据 sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive.hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入 从RDBMS中抽取出的数据可以被MapReduce程序使用,也可以被类似Hive的工具使用:得到分析结果后sqoop可以将结果导回数据库,供其他客户端使用 sqoop安装 解压然后配置环境变量即可 从oracle向HDFS导入数据 原理:  1)在导入之前,sqoop使用jdbc来检查将要导入的表…
使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 Sqoop 大数据 Hive HBase ETL 使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 基础环境 Sqool和Hive.HBase简介 Sqoop Hive HBase 测试Sqoop 使用Sqoop从MySQL导入数据到Hive 使用复杂SQL 调整Hive数据类型 不断更新 使用Sqoop从MySQL导入数据到HBase 使用复杂SQL 不断更新 Hive使用HBase数据 关于Sqoop2…
基础环境 sqoop:sqoop-1.4.5+cdh5.3.6+78, hive:hive-0.13.1+cdh5.3.6+397, hbase:hbase-0.98.6+cdh5.3.6+115 Sqool和Hive.HBase简介 Sqoop Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的开源工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中. Hiv…
静态分区: 在hive中创建表可以使用hql脚本: test.hql USE TEST; CREATE TABLE page_view(viewTime INT, userid BIGINT, page_url STRING, referrer_url STRING, ip STRING COMMENT 'IP Address of the User') COMMENT 'This is the page view table' PARTITIONED BY(dt STRING) STORED…
  目录 前言 一.使用的导入命令 二.遇到的问题及解决 1. 用文本字段进行分区的问题 2. Hadoop历史服务器Hadoop JobHistory没开启的问题 3. 连接元数据存储数据库报错 4. 没有在hive创建数据库 5. 其他警告和报错 三.参考 回到顶部 前言 这篇文章主要是用sqoop从mysql导入数据到hive时遇到的坑的总结. 环境: 系统:Centos 6.5 Hadoop:Apache,2.7.3 Mysql:5.1.73 JDK:1.8 Sqoop:1.4.7 Ha…
hdfs数据到hive中: 假设hdfs中已存在好了数据,路径是hdfs:/localhost:9000/user/user_w/hive_g2park/user_center_enterprise_info/* 1.提前(在hive中)准备好表, user_center_enterprise_info2 ,用于接收hdfs数据. CREATE TABLE user_center_enterprise_info2 ( `id`string , `name` string ); 2.使用load…
sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive.hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入 从RDBMS中抽取出的数据可以被MapReduce程序使用,也可以被类似Hive的工具使用:得到分析结果后sqoop可以将结果导回数据库,供其他客户端使用 sqoop安装 解压然后配置环境变量即可 从oracle向HDFS导入数据 原理:  1)在导入之前,sqoop使用jdbc来检查将要导入的表,检索出表中所有的列及数据类型,然后将…
最近公司开始做大数据项目,让我使用sqoop(1.6.4版本)导数据进行数据分析计算,然而当我们将所有的工作流都放到azkaban上时整个流程跑完需要花费13分钟,而其中导数据(增量)就占了4分钟左右,老板给我提供了使用 spark 导数据的思路,学习整理了一个多星期,终于实现了sqoop的主要功能. 这里我使用的是pyspark完成的所有操作. 条件:hdfs平台,pyspark,ubuntu系统 运行:我这里是在 /usr/bin 目录下(或者指定在此目录下 )运行的python文件,也可以…
1.1hive-import参数 使用--hive-import就可以将数据导入到hive中,但是下面这个命令执行后会报错,报错信息如下: sqoop import --connect jdbc:mysql://localhost:3306/test --username root --password 123456 --table person -m 1 --hive-import // :: ERROR tool.ImportTool: Encountered IOException run…
今天接到项目中的一个功能,要实现excel的导入,导出功能.这个看起来思路比较清楚,但是做起了就遇到了不少问题. 不过核心的问题,大家也不会遇到了.每个项目前台页面,以及数据填充方式都不一样,不过大多都是以json数据填充的.在导入excel填充json数据到页面时,真的让我差点吐血了.在做这个导入导出的时候,那一个礼拜都是黑暗的. 好了,废话不多说了,我今天就给大家展示这个两个功能的核心点,excel生成json数据和json数据生成excel文件. 一:从上传文件到服务器,后台java解析,…
http://www.cnblogs.com/hfzsjz/archive/2010/12/31/1922901.html http://hi.baidu.com/ctguyg/item/ebc857e90e436ae1fb42ba01 1 <form action="" method="post" runat ="server"> 2 <div> 3 <span>请选择文件:</span><…
Oracle 11G在用export导出时,空表不能导出,11G R2中有个新特性,当表无数据时,不分配segment,以节省空间. 那么我们应该如何导出空表: 利用如下语句生成alter语句,未每个空表分配segment select 'alter table '||table_name||' allocate extent;' from user_tables where num_rows=0; 粘贴运行结果sql直接运行: 然后直接使用plsql导出数据表即可.…
配置contrl文件 load data characterset utf8 append into table role_res_gold fields terminated by ';' TRAILING NULLCOLS ( F_USERNAME , F_RES_TYPE , F_INDEX , F_NAME , F_COUNT , F_GAIN_TYPE CONSTANT  "aa", //CONSTANT 是关键字,用常量替换行里面内容 F_CONSUME_TYPE FILL…
提示: IMP-00013: 只有 DBA 才能导入由其他 DBA 导出的文件 IMP-00000: 未成功终止导入 解决方法: 用户system用户登录然后授权 grant dba to hszx…
dmp文件是使用exp命令导出的,所以使用impdp导入则会报错误. 正确的导入语句为:imp sde/salis@orcl file='E:\sde.dmp' full=y;…
解决方法: 方法一. 1.在运行命令行输入regedit,打开注册表编辑器 2.找到HKEY_LOCAL_MACHINE\SOFTWARE\ORACLE\KEY_OraDb11g_home1 3.看NLS_LANG的值是否为SIMPLIFIE DCHINESE_CHINA.ZHS16GBK,不是就修改为这个值.一般这个值是正确的 修改后重启plsql或者navicat 方法二. 新建环境变量 1.环境变量名NLS_LANG 2.值SIMPLIFIE DCHINESE_CHINA.ZHS16GBK…
1.在数据库中建立实例数据库之后,运行cmd 2.键入 imp空格(实例数据库名)/(实例数据库口令)空格file=“拖入数据地址” 比如czt.dmp文件直接拖进去(空格)full=y 3.按enter建…
sqoop import -fs hdfs://x.x.x.x:8020 -jt local --connect "jdbc:oracle:thin:@x.x.x.x:1521:testdb" --username user2 --password user2 --verbose --as-textfile --delete-target-dir -m 1 --query "select * from test_tb where \$CONDITIONS" --ta…
1.使用sqoop创建表并且指定对应的hive表中的字段的数据类型,同时指定该表的分区字段名称 sqoop create-hive-table --connect "jdbc:oracle:thin:@192.168.13.1:1521/test" --username root --password 12345 --table test --hive-table myhive5 --hive-partition-key partition_time --map-column-hive…
注意: (1)\001 是hive当中默认使用的分隔符,这个玩意儿是一个asc 码值,键盘上面打不出来 (2)linux中一行写不下,可以末尾加上 一些空格和 “ \ ”,换行继续写余下的命令: bin/sqoop import --connect jdbc:mysql://192.168.25.24:3306/userdb --username root --password admin --table \emp --fields-terminated-by '\001' \--hive-im…
最近有个需求,需要把五千万条数据批量写入redis中,方法倒是有很多种!效率最高的就是通过redis-cl管道的方式写入 一:先看看命令 cat redis.txt | redis-cli -h 127.0.0.1 -a password - p 6379 --pipe 结构很简单 redis.txt 是你的文件名称 后面是你的客户端 二:redis.txt 的 文件格式 2.1 redis.txt的格式一 有两种文件格式 都是可以的 eg:  set yutes testsss *3 $3 s…
从sql中导出需要的数据为csv格式的数据 select field1,field2,...,fieldn from TABLE into outfile '/test.csv' fields terminated by ',' optionally enclosed by "" escaped by "" lines terminated by '\r\n'; 将test.csv数据导入到mongodb中,本人使用的是mongodb-3.2 mongoimport…
insert into OPENROWSET('Microsoft.ACE.OLEDB.12.0','Excel 12.0;Database=C:\c.xlsx','select 字段1,字段2 FROM [sheet1$]')  select 字段1,字段2 from table 今天单位一ASP.NET网站,里面有个功能是导出数据,发现一导出就报错,报错内容是:SQL Server 阻止了对组件 'Ad Hoc Distributed Queries' 的 STATEMENT'OpenRow…
背景:根据业务需要需要把60张主子表批量入库到hive表. 创建测试数据: def createBatchTestFile(): Unit = { to ) { val sWriter = new PrintWriter(new File("D:\\server_" + layer + ".txt")) val nWriter = new PrintWriter(new File("D:\\neighour_" + layer + ".…
Kylin构建Cube的时候老是报错,说是有空值,其实源数据中是不存在空值的.为什么建Cube的时候会有呢? 执行完毕后使用Hive查询发现多了好几行全部是null的行. 这在源数据中是不存在的.分析可能的原因是文本类型中存在特殊字符,例如 Tab,回车,换行字符.所以在抽取源数据中增加过滤. Sql中的特殊字符 char(9) 水平制表符char(10)换行键char(13)回车键 原来的SQL select FItemID,FParentID ,FNumber ,FName from 表名…