Flume practices and sqoop hive 2 oracle】的更多相关文章

#receive the file flume-ng agent --conf conf --conf-file conf1.conf --name a1 flume-ng agent --conf conf --conf-file conf2.conf --name hdfs-agent flume-ng agent --conf conf --conf-file conf3.conf --name file-agent Conf1.conf a1.sources = tail a1.chan…
1. sqoop数据迁移 1.1 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具. 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS.HIVE.HBASE等数据存储系统: 导出数据:从Hadoop的文件系统中导出数据到关系数据库 1.2 工作机制 将导入或导出命令翻译成mapreduce程序来实现 在翻译出的mapreduce中主要是对inputformat和outputformat进行定制 1.3 sqoop实战及原理 1.3.1…
sqoop工具从oracle导入数据 sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive.hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入 从RDBMS中抽取出的数据可以被MapReduce程序使用,也可以被类似Hive的工具使用:得到分析结果后sqoop可以将结果导回数据库,供其他客户端使用 sqoop安装 解压然后配置环境变量即可 从oracle向HDFS导入数据 原理:  1)在导入之前,sqoop使用jdbc来检查将要导入的表…
通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据\ 下文将重点说明通过Sqoop实现Mysql与HDFS互导数据,Mysql与Hbase,Oracle与Hbase的互导最后给出命令.一.Mysql与HDFS互导数据环境:宿主机器操作系统为Win7,Mysql安装在宿主机上,宿主机地址为192.168.66.963台虚拟机操作系统为Ubuntu-12.04.1-32位三台虚拟机已成功安装hadoop,并实现免密钥互访,配hosts为:192.168.66.91 m…
导入表的所有字段 sqoop import --connect jdbc:oracle:thin:@192.168.1.107:1521:ORCL \ --username SCOTT --password tiger \ --table EMP \ --hive-import --create-hive-table --hive-table emp -m 1; 如果报类似的错: ERROR tool.ImportTool: Encountered IOException running imp…
sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive.hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入 从RDBMS中抽取出的数据可以被MapReduce程序使用,也可以被类似Hive的工具使用:得到分析结果后sqoop可以将结果导回数据库,供其他客户端使用 sqoop安装 解压然后配置环境变量即可 从oracle向HDFS导入数据 原理:  1)在导入之前,sqoop使用jdbc来检查将要导入的表,检索出表中所有的列及数据类型,然后将…
文件/RDBMS -> flume/sqoop -> HDFS -> Hive -> HDFS -> Sqoop -> RDBMS 其中,本文实现了 使用 sqoop 从 RDBMS 中读取数据(非Oozie实现,具体错误将在本文最后说明) 从 Hive 处理数据存储到 HDFS 使用 sqoop 将 HDFS 存储到 RDBMS 中 1.复制一个 sqoop example,拷贝 hive-site.xml 文件,拷贝 mysql 依赖包到 lib 目录下 2.增加…
bug集锦 1. hadoop平台datanode无法启动: 原因: 由于多次hdfs namenode -format导致dfs/data/current/version中的cluserID与当前的cluserID不统一,通过查看hadoop/logs中的datanode日志文件查看到此错误. 解决方法: 1). 修改每台节点上的/dfs/current/version文件中的cluserID的值为当前的值(当前值可以通过hadoop/logs日志文件中的报错获得). 2). 每次format…
在Oracle中minus运算的主要功能是: 在进行两个表格或者两个查询结果的时候,返回在第一个表格/查询结果中与第二个表格/查询结果不同样的记录. 结果不同样的记录包括两种情况:A,B 表中某一行的内容不同和A表中的数据在B表中不存在.总之返回的是A表的数据. Hive中没有实现minus功能的函数,仅仅好分步实现. 一.找出在A表中的数据在B表中不存在的数据 insert overwrite table tmp_A partition(name='A_innot_B') select a.*…
导入表的所有字段 sqoop import --connect jdbc:oracle:thin:@192.168.1.100:1521:ORCL \ --username SCOTT --password tiger \ --table EMP -m 1; 查看执行结果: hadoop fs -cat /user/hadoop/EMP/part-m-00000 ,SMITH,CLERK,, ::, ,ALLEN,SALESMAN,, ::,, ,WARD,SALESMAN,, ::,, ,JO…
通过Sqoop将Hive表数据导入到MySQL通常有两种情况. 第一种是将hive上某张表的全部数据导入到mysql对应的表中. 第二种是将hive上某张表中的部分数据导入到mysql对应的表中. 两种方式的区别在于第二种情况需要指定要导入数据的列名称.两种情况的导入方式分别如下: 1.全部导入 Sqoop export --connect  jdbc:mysql://127.0.0.1:3306/dbname  --username mysql(mysql用户名) --password 123…
本文完成:在hive里建管理表:注入部分数据:利用sqoop导入mysql中 期间:解决中文乱码问题   飞行报告故障表 建表命令 查看表 人工灌入少量数据 Windows系统向Linux系统数据传输 解决中文乱码问题 1)显示终端xshell 属性里修改为utf-8 编码格式 2)源文本文件编辑为utf-8格式 3)修改fileformat (可选) 加载数据 显示内容   根据分区做查询 将结果写入本地目录 关联mysql 在mysql中建立相同的表结构 利用sqoop导入(注意当前用户环境…
flume的配置文件如下: a1.sources=r1 a1.channels=c1 a1.sinks=s1 a1.sources.r1.type=netcat a1.sources.r1.bind=master a1.sources.r1.port=44444 a1.sinks.s1.type=hive a1.sinks.s1.hive.metastore=thrift://master:9083 a1.sinks.s1.hive.database=bd14 a1.sinks.s1.hive.…
因为项目需求,需要保存项目日志.项目的并发量不大,所以这里直接通过flume保存到oracle 源码地址:https://github.com/jaxlove/fks/tree/master/src/main/java/com 日志系统设置: url:以select.save.update.remove开头. 通过filter记录请求功的url.格式为json格式,字段包括channel(来源渠道web.wap.app等).operate_type(操作类型).first_model(菜单第一模…
静态分区: 在hive中创建表可以使用hql脚本: test.hql USE TEST; CREATE TABLE page_view(viewTime INT, userid BIGINT, page_url STRING, referrer_url STRING, ip STRING COMMENT 'IP Address of the User') COMMENT 'This is the page view table' PARTITIONED BY(dt STRING) STORED…
使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 Sqoop 大数据 Hive HBase ETL 使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 基础环境 Sqool和Hive.HBase简介 Sqoop Hive HBase 测试Sqoop 使用Sqoop从MySQL导入数据到Hive 使用复杂SQL 调整Hive数据类型 不断更新 使用Sqoop从MySQL导入数据到HBase 使用复杂SQL 不断更新 Hive使用HBase数据 关于Sqoop2…
/opt/sqoop-/bin/sqoop export --table mytablename --connect jdbc:oracle:thin:@**.**.**.**:***:dbasename --username myusername--password mypassword--export-dir /result/hive/***/000000_0 --columns column1,column2,column3--input-fields-terminated-by '\00…
一.参考文档: 1.https://www.rittmanmead.com/blog/2014/03/using-sqoop-for-loading-oracle-data-into-hadoop-on-the-bigdatalite-vm/ 2.http://www.cnblogs.com/bjtu-leefon/archive/2013/06/28/3160549.html 二.使用脚本 ----sqoop import zdsd 使用注意: 1.执行节点 Sqoop_home/lib 里添…
最近一段时间,负责公司的产品日志埋点与收集工作,搭建了基于Flume+HDFS+Hive日志搜集系统. 一.日志搜集系统架构: 简单画了一下日志搜集系统的架构图,可以看出,flume承担了agent与collector角色,HDFS承担了数据持久化存储的角色. 作者搭建的服务器是个demo版,只用到了一个flume_collector,数据只存储在HDFS.当然高可用的日志搜集处理系统架构是需要多台flume collector做负载均衡与容错处理的. 二.日志产生: 1.log4j配置,每隔1…
1.原表没有设置主键,出现错误提示: ERROR tool.ImportTool: Error during import: No primary key could be found for table xxx. Please specify one with --split-by or perform a sequential import with '-m 1' 提示说明的很清楚:在表xxx没有发现主键,使用--split-by指定一个column作为拆分字段或者在命令行上添加 ‘-m 1…
5 Function      指数据库内置的function,不讨论UDF.另外,操作符都不比较了,区别不大.   5.1 数学函数 功能 Oracle Hive Impala ABS 绝对值,有 有 有 SIN/SINH/ASIN/COS/COSH/ACOS/TAN/TANH/ATAN/ATAN2 三角函数 其中ATAN2接受两个参数(二维平面中的坐标) 没有SINH/COSH/TANH/ATAN2 同hive BITAND 按位与,有     CEIL 天花板值,有 有,还有个别名CEIL…
参考:segmentfault.com:Sqoop导入关系数据库到Hive Sqoop 是 apache 下用于 RDBMS 和 HDFS 互相导数据的工具.本文以 mysql 数据库为例,实现关系数据库导入到 hdfs 和 hive. 1. 安装 Sqoop 使用 rpm 安装即可. yum install sqoop sqoop-metastore -y 安装完之后需要下载 mysql jar 包到 sqoop 的 lib 目录. 这里使用 hive 的 metastore 的 mysql…
ERROR tool.ImportTool: Import failed: java.io.IOException: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf sqoop从mysql导入到hive报错: 18/08/22 13:30:53 ERROR tool.ImportTool: Import failed: java.io.IOException: java.lang.ClassNotFou…
目标: 通过接受 1084端口的http请求信息, 存储到 hive数据库中, osgi为hive中创建的数据库名称 periodic_report6 为创建的数据表, flume配置如下: a1.sources=r1a1.channels=c1a1.sinks=k1 a1.sources.r1.type = httpa1.sources.r1.bind = 0.0.0.0a1.sources.r1.port = 1084a1.sources.r1.handler=jkong.test.Plai…
一. sqoop: mysql->hive sqoop import -m 1 --hive-import --connect "jdbc:mysql://127.0.0.1:3306/TEST?zeroDateTimeBehavior=CONVERT_TO_NULL&useUnicode=true&characterEncoding=utf-8&serverTimezone=Asia/Shanghai" --username sa --password-…
转自:http://blog.csdn.net/wzy0623/article/details/73650053 一.为什么要用到Flume 在以前搭建HAWQ数据仓库实验环境时,我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS,然后用HAWQ的外部表进行访问.这种方式只需要很少量的配置即可完成数据抽取任务,但缺点同样明显,那就是实时性.Sqoop使用MapReduce读写数据,而MapReduce是为了批处理场景设计的,目标是大吞吐量,并不太关心低延时问题.就像实验中所做的,每天定…
Apache Flume Flume NG是一个分布式.可靠.可用的系统,它能够将不同数据源的海量日志数据进行高效收集.聚合,最后存储到一个中心化数据存储系统中,方便进行数据分析.事实上flume也可以收集其他信息,不仅限于日志.包括端口数据.JMS.命令行等输出数据. 架构 Flume主要的组件包括source(数据源),数据中间存储(channel),sink数据目标存储. 可实现多种拓扑架构,如级联数据传输. 可以多对一做数据集中 也可以一对多做数据分发 Flume支持的组件 Source…
Oracle: Connection Reset Errors 错误代码 // :: INFO mapred.JobClient: Task Id : attempt_201105261333_0002_m_000002_0, Status : FAILED java.lang.RuntimeException: java.lang.RuntimeException: java.sql.SQLRecoverableException: IO Error: Connection reset at…
--direct 只支持mysql 5.0 + 和postgresql 8.3+(只是import) jdbc的jar包需要放在$SQOOP_HOME/lib目录下 mysql zeroDateTimeBehavior mysql允许DATE列使用'0000-00-00\' 如果不处理sqoop默认给转换为null 当然你也可以自己指定为 round,自动转换为('0001-01-01\') $ sqoop import --table foo \ --connect jdbc:mysql://…