Spark2.x学习笔记：Spark SQL快速入门

Spark SQL快速入门

本地表

（1）准备数据

[root@node1 ~]# mkdir /tmp/data

[root@node1 ~]# cat data/ml-1m/users.dat |tr -s "::" "," >> /tmp/data/users.dat

[root@node1 ~]# tail - /tmp/data/users.dat

,F,,,

,F,,,

,F,,,

,F,,,

,M,,,

[root@node1 ~]#

（2）确认HDFS已经启动
（3）进入spark-sql

[root@node1 ~]# spark-sql

// :: WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

// :: WARN ObjectStore: Version information not found in metastore. hive.metastore.schema.verification is not enabled so recording the schema version 1.2.

// :: WARN ObjectStore: Failed to get database default, returning NoSuchObjectException

// :: WARN ObjectStore: Failed to get database global_temp, returning NoSuchObjectException

spark-sql>

（4）创建表

spark-sql> create external table user(

         > userid int,

         > gender string,

         > age int,

         > occupation string,

         > zipcode int

         > )

         > row format delimited fields terminated by ','

         > stored as textfile

         > location 'file:///tmp/data';

Time taken: 4.032 seconds

spark-sql>

（5）查看表结构

spark-sql> show create table user;

CREATE EXTERNAL TABLE `user`(`userid` int, `gender` string, `age` int, `occupation` string, `zipcode` int)

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'

WITH SERDEPROPERTIES (

  'field.delim' = ',',

  'serialization.format' = ','

)

STORED AS

  INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'

  OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

LOCATION 'file:/tmp/data'

TBLPROPERTIES (

  'rawDataSize' = '-1',

  'numFiles' = '',

  'transient_lastDdlTime' = '',

  'totalSize' = '',

  'COLUMN_STATS_ACCURATE' = 'false',

  'numRows' = '-1'

)

Time taken: 1.816 seconds, Fetched  row(s)

spark-sql>

（6）查询本地数据表

spark-sql> select * from user limit ;

   F

   M

   M

   M

   M

   F

   M

   M

   M

  F

Time taken: 2.95 seconds, Fetched  row(s)

spark-sql>

使用spark-sql处理Hive MeteStore中的表

注意，默认HDFS已经启动。

（1）hive-site.xml
hive可以通过服务的形式对外提供元数据读写操作，修改配置文件 $HIVE_HOME/conf/hive-site.xml，增加如下内容

<property>

         <name>hive.metastore.uris</name>

         <value>thrift://node:9083</value>

</property>

其中，node是启动metastore服务所在的节点。
我的hive-site.xml内容如下：

[root@node3 ~]# cat /opt/hive-2.1./conf/hive-site.xml

<?xml version="1.0" encoding="UTF-8"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

     <property>

          <name>hive.metastore.uris</name>

          <value>thrift://node3:9083</value>

          <description>用于metastore客户端连接远程metestore</description>

    </property>

    <property>

          <name>javax.jdo.option.ConnectionURL</name>

          <value>jdbc:mysql://node3:3306/hive?createDatabaseIfNotExist=true</value>

    </property>

    <property>

          <name>javax.jdo.option.ConnectionDriverName</name>

          <value>com.mysql.jdbc.Driver</value>

    </property>

    <property>

          <name>javax.jdo.option.ConnectionUserName</name>

          <!--mysql数据库用户名-->

          <value>root</value>

    </property>

    <property>

          <name>javax.jdo.option.ConnectionPassword</name>

          <value></value>

    </property>

    <property>

          <name>mapred.reduce.tasks</name>

          <value></value>

    </property>

</configuration>

[root@node3 ~]#

（2）启动hive metastore

[root@node3 ~]# hive --service hiveserver2  >/dev/null >/dev/null &

[root@node3 ~]# hive --service metastore  >/dev/null  >&  &

[root@node3 ~]# jobs

[]-  Running                 hive --service hiveserver2 > /dev/null > /dev/null &

[]+  Running                 hive --service metastore > /dev/null >& &

[root@node3 ~]#

（3）将hive的配置文件复制到spark

[root@node3 ~]# scp /opt/hive-2.1./conf/hive-site.xml  node1:/opt/spark-2.2./conf

（4）启动spark-sql

[root@node1 ~]# spark-sql

// :: WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

// :: WARN ObjectStore: Version information not found in metastore. hive.metastore.schema.verification is not enabled so recording the schema version 1.2.

// :: WARN ObjectStore: Failed to get database default, returning NoSuchObjectException

spark-sql>

（5）查看Hive数据表

spark-sql> show tables;

default copyemp false

default demo    false

default dept    false

default dual    false

default emp false

default empbak  false

default employees   false

default mytb    false

default users   false

Time taken: 4.908 seconds, Fetched  row(s)

spark-sql> select * from users;

   aa

   bb

   cc

Time taken: 3.196 seconds, Fetched  row(s)

spark-sql>

Spark2.x学习笔记：Spark SQL快速入门的更多相关文章

MyBatis学习笔记(一)——MyBatis快速入门
转自孤傲苍狼的博客:http://www.cnblogs.com/xdp-gacl/p/4261895.html 一.Mybatis介绍 MyBatis是一个支持普通SQL查询,存储过程和高级映射的优 ...
【Python】【学习笔记】1.快速入门
1.软件安装从官网下载相应版本的安装包,一般不大. https://www.python.org/ 安装一路默认即可 2. 参考教程:快速入门:十分钟学会Python 本文的内容介于教程(Totur ...
前端学习笔记之ES6快速入门
0x1 let和const let ES6新增了let命令,用于声明变量.其用法类似var,但是声明的变量只在let命令所在的代码块内有效. { let x = 10; var y = 20; } x ...
《C++ 101条建议》学习笔记——第一章快速入门
1.C++程序组成:a.编译指示,由#开始,不由分号结束.只是影响编译过程.b.声明语句,影响编译过程,编译结果中并不会生成对应的指令.只是告诉编译器一些信息.c.可执行过程语句,生成对应的指令.包括 ...
Node.js学习笔记3（快速入门）
一.开始使用Node.js编程 1.hello world 好了,让我们开始实现第一个 Node.js 程序吧.打开你常用的文本编辑器,在其中输入 ...
Oracle学习笔记三 SQL命令
SQL简介 SQL 支持下列类别的命令: 1.数据定义语言(DDL) 2.数据操纵语言(DML) 3.事务控制语言(TCL) 4.数据控制语言(DCL)
【转】MyBatis学习总结(一)——MyBatis快速入门
[转]MyBatis学习总结(一)——MyBatis快速入门一.Mybatis介绍 MyBatis是一个支持普通SQL查询,存储过程和高级映射的优秀持久层框架.MyBatis消除了几乎所有的JDBC ...
Oracle RAC学习笔记:基本概念及入门
Oracle RAC学习笔记:基本概念及入门 2010年04月19日 10:39 来源:书童的博客作者:书童编辑:晓熊 [技术开发技术文章] oracle 10g real applica ...
js学习笔记：webpack基础入门（一）
之前听说过webpack,今天想正式的接触一下,先跟着webpack的官方用户指南走: 在这里有: 如何安装webpack 如何使用webpack 如何使用loader 如何使用webpack的开发者 ...

随机推荐

PHP中$_SERVER的详细用法
PHP中$_SERVER的详细用法 $_SERVER['PHP_SELF'] #当前正在执行脚本的文件名,与 document root相关. $_SERVER['argv'] #传递给该脚本的参数. ...
【SpringCloud微服务实战学习系列】配置详解
前言 Spring Boot针对常用的开发场景提供了一系列自动化配置来减少原本复杂而又几乎很少改动的模板化配置内容. 一.配置文件 Spring Boot的默认配置文件位置为src/main.reso ...
css案例 - mask遮罩层的华丽写法
mask遮罩蒙层使用通常的写法的bug 通常写法pug .mask 通常写法css .mask{ position: absolute; top: 0; right: 0; bottom: 0; le ...
题目1029：魔咒词典(map使用以及字符串读取函数总结)
题目链接:http://ac.jobdu.com/problem.php?pid=1029 详解链接:https://github.com/zpfbuaa/JobduInCPlusPlus // // ...
Linux 常用查找文件或者文件内容
举例树形图 .|-- test_dir| `-- dir_test_doc.text|-- test_dir2| |-- dir2_test_doc.txt| `-- dir2_test_doc2.t ...
android开发，权限获取
转:http://blog.csdn.net/yawinstake/article/details/6748897 访问登记属性 android.permission.ACCESS_CHECKIN_P ...
Twig---基本使用
三种特殊语法: {{ … }} “说些什么”:输出一个变量值或者一个表达式的结果到模板.如:{{ item.username }}. twig也包含filters,它可以在模板渲染之前改变输出内容 ...
php中调用这个功能可以在web页面中显示hello world这个经典单词
php程序写的时间长了,自然对他所提供的功能了如指掌,他所提供的一大堆功能,真是觉得很好用,但有时候会发现php也缺少一些功能,自己总是会产生为php添加一些自定义的功能的想法.久而久之,终于今天憋不 ...
FastJson 对enum的序列化（ordinal）和反序列化
目前版本的fastjon默认对enum对象使用WriteEnumUsingName属性,因此会将enum值序列化为其Name. 使用WriteEnumUsingToString方法可以序列化时将Enu ...
hdu3038 How many answers are wrong【并查集】
TT and FF are ... friends. Uh... very very good friends -________-b FF is a bad boy, he is always w ...

Spark2.x学习笔记：Spark SQL快速入门

Spark SQL快速入门

本地表

使用spark-sql处理Hive MeteStore中的表

Spark2.x学习笔记：Spark SQL快速入门的更多相关文章

随机推荐

热门专题