Flume practices and sqoop hive 2 oracle

#receive the file flume-ng agent --conf conf --conf-file conf1.conf --name a1 flume-ng agent --conf conf --conf-file conf2.conf --name hdfs-agent flume-ng agent --conf conf --conf-file conf3.conf --name file-agent Conf1.conf a1.sources = tail a1.chan…

HIVE之 Sqoop 1.4.6 安装、hive与oracle表互导

1. sqoop数据迁移 1.1 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具. 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS.HIVE.HBASE等数据存储系统: 导出数据:从Hadoop的文件系统中导出数据到关系数据库 1.2 工作机制将导入或导出命令翻译成mapreduce程序来实现在翻译出的mapreduce中主要是对inputformat和outputformat进行定制 1.3 sqoop实战及原理 1.3.1…

sqoop工具从oracle导入数据2

sqoop工具从oracle导入数据 sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive.hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入从RDBMS中抽取出的数据可以被MapReduce程序使用,也可以被类似Hive的工具使用:得到分析结果后sqoop可以将结果导回数据库,供其他客户端使用 sqoop安装解压然后配置环境变量即可从oracle向HDFS导入数据原理: 1)在导入之前,sqoop使用jdbc来检查将要导入的表…

通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据

通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据\ 下文将重点说明通过Sqoop实现Mysql与HDFS互导数据,Mysql与Hbase,Oracle与Hbase的互导最后给出命令.一.Mysql与HDFS互导数据环境:宿主机器操作系统为Win7,Mysql安装在宿主机上,宿主机地址为192.168.66.963台虚拟机操作系统为Ubuntu-12.04.1-32位三台虚拟机已成功安装hadoop,并实现免密钥互访,配hosts为:192.168.66.91 m…

sqoop操作之ORACLE导入到HIVE

导入表的所有字段 sqoop import --connect jdbc:oracle:thin:@192.168.1.107:1521:ORCL \ --username SCOTT --password tiger \ --table EMP \ --hive-import --create-hive-table --hive-table emp -m 1; 如果报类似的错: ERROR tool.ImportTool: Encountered IOException running imp…

使用sqoop工具从oracle导入数据

sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive.hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入从RDBMS中抽取出的数据可以被MapReduce程序使用,也可以被类似Hive的工具使用:得到分析结果后sqoop可以将结果导回数据库,供其他客户端使用 sqoop安装解压然后配置环境变量即可从oracle向HDFS导入数据原理: 1)在导入之前,sqoop使用jdbc来检查将要导入的表,检索出表中所有的列及数据类型,然后将…

Oozie 配合 sqoop hive 实现数据分析输出到 mysql

文件/RDBMS -> flume/sqoop -> HDFS -> Hive -> HDFS -> Sqoop -> RDBMS 其中,本文实现了使用 sqoop 从 RDBMS 中读取数据(非Oozie实现,具体错误将在本文最后说明) 从 Hive 处理数据存储到 HDFS 使用 sqoop 将 HDFS 存储到 RDBMS 中 1.复制一个 sqoop example,拷贝 hive-site.xml 文件,拷贝 mysql 依赖包到 lib 目录下 2.增加…

spark+hadoop+sqoop+hive平台bug解决方法

bug集锦 1. hadoop平台datanode无法启动: 原因: 由于多次hdfs namenode -format导致dfs/data/current/version中的cluserID与当前的cluserID不统一,通过查看hadoop/logs中的datanode日志文件查看到此错误. 解决方法: 1). 修改每台节点上的/dfs/current/version文件中的cluserID的值为当前的值(当前值可以通过hadoop/logs日志文件中的报错获得). 2). 每次format…

Hive实现oracle的Minus函数

在Oracle中minus运算的主要功能是: 在进行两个表格或者两个查询结果的时候,返回在第一个表格/查询结果中与第二个表格/查询结果不同样的记录. 结果不同样的记录包括两种情况:A,B 表中某一行的内容不同和A表中的数据在B表中不存在.总之返回的是A表的数据. Hive中没有实现minus功能的函数,仅仅好分步实现. 一.找出在A表中的数据在B表中不存在的数据 insert overwrite table tmp_A partition(name='A_innot_B') select a.*…

sqoop操作之Oracle导入到HDFS

导入表的所有字段 sqoop import --connect jdbc:oracle:thin:@192.168.1.100:1521:ORCL \ --username SCOTT --password tiger \ --table EMP -m 1; 查看执行结果: hadoop fs -cat /user/hadoop/EMP/part-m-00000 ,SMITH,CLERK,, ::, ,ALLEN,SALESMAN,, ::,, ,WARD,SALESMAN,, ::,, ,JO…

Sqoop hive导出到mysql[转]

通过Sqoop将Hive表数据导入到MySQL通常有两种情况. 第一种是将hive上某张表的全部数据导入到mysql对应的表中. 第二种是将hive上某张表中的部分数据导入到mysql对应的表中. 两种方式的区别在于第二种情况需要指定要导入数据的列名称.两种情况的导入方式分别如下: 1.全部导入 Sqoop export --connect jdbc:mysql://127.0.0.1:3306/dbname --username mysql(mysql用户名) --password 123…

Sqoop hive 和mysql 交互完整案例

本文完成:在hive里建管理表:注入部分数据:利用sqoop导入mysql中期间:解决中文乱码问题飞行报告故障表建表命令查看表人工灌入少量数据 Windows系统向Linux系统数据传输解决中文乱码问题 1)显示终端xshell 属性里修改为utf-8 编码格式 2)源文本文件编辑为utf-8格式 3)修改fileformat (可选) 加载数据显示内容根据分区做查询将结果写入本地目录关联mysql 在mysql中建立相同的表结构利用sqoop导入(注意当前用户环境…

flume的sink写入hive表

flume的配置文件如下: a1.sources=r1 a1.channels=c1 a1.sinks=s1 a1.sources.r1.type=netcat a1.sources.r1.bind=master a1.sources.r1.port=44444 a1.sinks.s1.type=hive a1.sinks.s1.hive.metastore=thrift://master:9083 a1.sinks.s1.hive.database=bd14 a1.sinks.s1.hive.…

flume收集日志直接sink到oracle数据库

因为项目需求,需要保存项目日志.项目的并发量不大,所以这里直接通过flume保存到oracle 源码地址:https://github.com/jaxlove/fks/tree/master/src/main/java/com 日志系统设置: url:以select.save.update.remove开头. 通过filter记录请求功的url.格式为json格式,字段包括channel(来源渠道web.wap.app等).operate_type(操作类型).first_model(菜单第一模…

hive和ORACLE语法对比

…

sqoop导oracle数据到hive中并动态分区

静态分区: 在hive中创建表可以使用hql脚本: test.hql USE TEST; CREATE TABLE page_view(viewTime INT, userid BIGINT, page_url STRING, referrer_url STRING, ip STRING COMMENT 'IP Address of the User') COMMENT 'This is the page view table' PARTITIONED BY(dt STRING) STORED…

使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟

使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 Sqoop 大数据 Hive HBase ETL 使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟基础环境 Sqool和Hive.HBase简介 Sqoop Hive HBase 测试Sqoop 使用Sqoop从MySQL导入数据到Hive 使用复杂SQL 调整Hive数据类型不断更新使用Sqoop从MySQL导入数据到HBase 使用复杂SQL 不断更新 Hive使用HBase数据关于Sqoop2…

sqoop导入hdfs上的数据到oracle

/opt/sqoop-/bin/sqoop export --table mytablename --connect jdbc:oracle:thin:@**.**.**.**:***:dbasename --username myusername--password mypassword--export-dir /result/hive/***/000000_0 --columns column1,column2,column3--input-fields-terminated-by '\00…

使用sqoop从Oracle或mysql抽取数据到HDFS遇到的报错及解决

一.参考文档: 1.https://www.rittmanmead.com/blog/2014/03/using-sqoop-for-loading-oracle-data-into-hadoop-on-the-bigdatalite-vm/ 2.http://www.cnblogs.com/bjtu-leefon/archive/2013/06/28/3160549.html 二.使用脚本 ----sqoop import zdsd 使用注意: 1.执行节点 Sqoop_home/lib 里添…

Flume + HDFS + Hive日志收集系统

最近一段时间,负责公司的产品日志埋点与收集工作,搭建了基于Flume+HDFS+Hive日志搜集系统. 一.日志搜集系统架构: 简单画了一下日志搜集系统的架构图,可以看出,flume承担了agent与collector角色,HDFS承担了数据持久化存储的角色. 作者搭建的服务器是个demo版,只用到了一个flume_collector,数据只存储在HDFS.当然高可用的日志搜集处理系统架构是需要多台flume collector做负载均衡与容错处理的. 二.日志产生: 1.log4j配置,每隔1…

使用Sqoop从mysql向hdfs或者hive导入数据时出现的一些错误

1.原表没有设置主键,出现错误提示: ERROR tool.ImportTool: Error during import: No primary key could be found for table xxx. Please specify one with --split-by or perform a sequential import with '-m 1' 提示说明的很清楚:在表xxx没有发现主键,使用--split-by指定一个column作为拆分字段或者在命令行上添加 ‘-m 1…

Oracle/Hive/Impala SQL比较1

5 Function 指数据库内置的function,不讨论UDF.另外,操作符都不比较了,区别不大. 5.1 数学函数功能 Oracle Hive Impala ABS 绝对值,有有有 SIN/SINH/ASIN/COS/COSH/ACOS/TAN/TANH/ATAN/ATAN2 三角函数其中ATAN2接受两个参数(二维平面中的坐标) 没有SINH/COSH/TANH/ATAN2 同hive BITAND 按位与,有 CEIL 天花板值,有有,还有个别名CEIL…

Sqoop导入关系数据库到Hive

参考:segmentfault.com:Sqoop导入关系数据库到Hive Sqoop 是 apache 下用于 RDBMS 和 HDFS 互相导数据的工具.本文以 mysql 数据库为例,实现关系数据库导入到 hdfs 和 hive. 1. 安装 Sqoop 使用 rpm 安装即可. yum install sqoop sqoop-metastore -y 安装完之后需要下载 mysql jar 包到 sqoop 的 lib 目录. 这里使用 hive 的 metastore 的 mysql…

sqoop mysql--->hive 报错（ERROR tool.ImportTool: Import failed: java.io.IOException: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf）

ERROR tool.ImportTool: Import failed: java.io.IOException: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf sqoop从mysql导入到hive报错: 18/08/22 13:30:53 ERROR tool.ImportTool: Import failed: java.io.IOException: java.lang.ClassNotFou…

通过 flume 上传数据到hive

目标: 通过接受 1084端口的http请求信息, 存储到 hive数据库中, osgi为hive中创建的数据库名称 periodic_report6 为创建的数据表, flume配置如下: a1.sources=r1a1.channels=c1a1.sinks=k1 a1.sources.r1.type = httpa1.sources.r1.bind = 0.0.0.0a1.sources.r1.port = 1084a1.sources.r1.handler=jkong.test.Plai…

sqoop 数据导入hive

一. sqoop: mysql->hive sqoop import -m 1 --hive-import --connect "jdbc:mysql://127.0.0.1:3306/TEST?zeroDateTimeBehavior=CONVERT_TO_NULL&useUnicode=true&characterEncoding=utf-8&serverTimezone=Asia/Shanghai" --username sa --password-…

利用Flume将MySQL表数据准实时抽取到HDFS

转自:http://blog.csdn.net/wzy0623/article/details/73650053 一.为什么要用到Flume 在以前搭建HAWQ数据仓库实验环境时,我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS,然后用HAWQ的外部表进行访问.这种方式只需要很少量的配置即可完成数据抽取任务,但缺点同样明显,那就是实时性.Sqoop使用MapReduce读写数据,而MapReduce是为了批处理场景设计的,目标是大吞吐量,并不太关心低延时问题.就像实验中所做的,每天定…

GoldenGate实时投递数据到大数据平台（3）- Apache Flume

Apache Flume Flume NG是一个分布式.可靠.可用的系统,它能够将不同数据源的海量日志数据进行高效收集.聚合,最后存储到一个中心化数据存储系统中,方便进行数据分析.事实上flume也可以收集其他信息,不仅限于日志.包括端口数据.JMS.命令行等输出数据. 架构 Flume主要的组件包括source(数据源),数据中间存储(channel),sink数据目标存储. 可实现多种拓扑架构,如级联数据传输. 可以多对一做数据集中也可以一对多做数据分发 Flume支持的组件 Source…

sqoop 常见错误以及处理方式

Oracle: Connection Reset Errors 错误代码 // :: INFO mapred.JobClient: Task Id : attempt_201105261333_0002_m_000002_0, Status : FAILED java.lang.RuntimeException: java.lang.RuntimeException: java.sql.SQLRecoverableException: IO Error: Connection reset at…

sqoop 兼容性问题

--direct 只支持mysql 5.0 + 和postgresql 8.3+(只是import) jdbc的jar包需要放在$SQOOP_HOME/lib目录下 mysql zeroDateTimeBehavior mysql允许DATE列使用'0000-00-00\' 如果不处理sqoop默认给转换为null 当然你也可以自己指定为 round,自动转换为('0001-01-01\') $ sqoop import --table foo \ --connect jdbc:mysql://…

【Flume practices and sqoop hive 2 oracle】的更多相关文章