1. hdfs 文件   {"retCode":1,"retMsg":"Success","data":[{"secID":"000001.XSHE","ticker":"000001","secShortName":"深发展A","exchangeCD":"XSHE"…
先在hive里面创建一个表 create table mydb2.t3(id int,name string,age int) row format delimited fields terminated by ','stored as textfile; 接下来创建数据文件 把本地的数据文件导入到hive表中 LOAD DATA LOCAL INPATH '/opt/datas/a.txt' OVERWRITE INTO TABLE t3;  接下来把hdfs上的文件导入到hive表中 现在在…
Sqoop将mysql数据导入到hive表中 先在mysql创建表 CREATE TABLE `sqoop_test` ( `id` ) DEFAULT NULL, `name` varchar() DEFAULT NULL, `age` ) DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=latin1 插入数据 fz dx test test_add test_add- test_add_2 在hive中创建表,表结构和mysql中一样 hive> c…
mysql中把一个表的数据批量导入另一个表中   不管是在网站开发还是在应用程序开发中,我们经常会碰到需要将MySQL或MS SQLServer某个表的数据批量导入到另一个表的情况,甚至有时还需要指定导入字段.  本文就将以MySQL数据库为例,介绍如何通过SQL命令行将某个表的所有数据或指定字段的数据,导入到目标表 中.此方法对于SQLServer数据库,也就是T-SQL来说,同样适用 .   类别一. 如果两张张表(导出表和目标表)的字段一致,并且希望插入全部数据,可以用这种方法:(此方法只…
1.Hive 表 DDL 1.1.创建表 Hive中创建表的完整语法如下: CREATE [EXTERNAL] TABLE [IF NOT EXISTS]  table_name [ (col_name data_type [COMMET col_comment], . . .)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], . . . )] [CLUSTERED BY (c…
1.将DataFrame数据如何写入到Hive表中?2.通过那个API实现创建spark临时表?3.如何将DataFrame数据写入hive指定数据表的分区中? 从spark1.2 到spark1.3,spark SQL中的SchemaRDD变为了DataFrame,DataFrame相对于SchemaRDD有了较大改变,同时提供了更多好用且方便的API. DataFrame将数据写入hive中时,默认的是hive默认数据库,insertInto没有指定数据库的参数,本文使用了下面方式将数据写入…
1:先将mysql一张表的数据用sqoop导入到hdfs中 准备一张表 需求 将 bbs_product 表中的前100条数据导 导出来  只要id  brand_id和 name 这3个字段 数据存在 hdfs 目录   /user/xuyou/sqoop/imp_bbs_product_sannpy_  下 bin/sqoop import \ --connect jdbc:mysql://172.16.71.27:3306/babasport \ --username root \ --p…
全景图:   1. 创建hive表 CREATE TABLE IF NOT EXISTS newsinfo.test( name STRING ) CLUSTERED BY (name)INTO 3 BUCKETS ROW FORMAT DELIMITED STORED AS ORC TBLPROPERTIES('transactional'='true');   2. 这里用了 ReplaceText 生成 json 数据 (正式环境可以直接从hfs里取到)   3. 用ConvertJSON…
一.先将mysql一张表的数据用sqoop导入到hdfs 1.1.先在mysql中准备一张测试用的表 mysql> desc user_info; +-----------+-------------+------+-----+---------+-------+ | Field | Type | Null | Key | Default | Extra | +-----------+-------------+------+-----+---------+-------+ ) | YES |…
1.配置源和目标的数据连接 源(oracle): 目标(Hive 2.1.1),需要事先将hive的驱动程序导入HHDI的lib目录中. Hive2.1.1需要的jar包如下:可根据自身情况更换hadoop和hive的jar包. hadoop-common-2.6.0.jar hive-common-2.1.0.jar hive-jdbc-2.1.0.jar hive-metastore-2.1.0.jar hive-serde-2.1.0.jar hive-service-2.1.0.jar…