Spark SQL实战

一、程序

 package sparklearning

 import org.apache.log4j.Logger

 import org.apache.spark.SparkConf

 import org.apache.spark.SparkContext

 import org.apache.spark.sql.SQLContext

 import org.apache.spark.storage.StorageLevel

 import org.apache.log4j.Level

 object OnLineTradeStatistics {

   case class User(userID:String,gender:String,age:Int,registerDate:String,provice:String,career:String)

   case class TradeDetail(tradeID:String, tradeDate:String,productID:Int,amount:Int,userID:String)

   def main(args: Array[String]){

     //关闭不必要的日志显示

       Logger.getLogger("org.apache.hadoop").setLevel(Level.ERROR)

       Logger.getLogger("org.apache.spark").setLevel(Level.ERROR)

       Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)

       //设置应用程序

       val conf=new SparkConf().setAppName("On Line Trade Data").setMaster("local")

       val ctx=new SparkContext(conf)

       val sqlCtx=new SQLContext(ctx)

       import sqlCtx.implicits._

       //读文件  RDD-->DataFrame

       val userDF= ctx.textFile("/home/hadoop/data/on_line_trade_user.txt").map(_.split(" ")).map(u=>User(u(0),u(1),u(2).toInt,u(3),u(4),u(5))).toDF()

       userDF.registerTempTable("user")

       userDF.persist(StorageLevel.MEMORY_ONLY_SER)

       val tradeDF= ctx.textFile("/home/hadoop/data/on_line_trade_detail.txt").map(_.split(" ")).map(u=>TradeDetail(u(0),u(1),u(2).toInt,u(3).toInt,u(4))).toDF()

       tradeDF.registerTempTable("trade")//生成临时表

       tradeDF.persist(StorageLevel.MEMORY_ONLY_SER)

       val countOfTrade2016 = sqlCtx.sql("SELECT * FROM trade where tradeDate like '2016%'").count()

       println("2016 total money: "+countOfTrade2016)

   }

 }

二、结果

Spark SQL实战的更多相关文章

第8章 Spark SQL实战
第8章 Spark SQL实战 8.1 数据说明数据集是货品交易数据集. 每个订单可能包含多个货品,每个订单可以产生多次交易,不同的货品有不同的单价. 8.2 加载数据 tbStock: scala ...
大数据技术之_19_Spark学习_03_Spark SQL 应用解析 + Spark SQL 概述、解析、数据源、实战 + 执行 Spark SQL 查询 + JDBC/ODBC 服务器
第1章 Spark SQL 概述1.1 什么是 Spark SQL1.2 RDD vs DataFrames vs DataSet1.2.1 RDD1.2.2 DataFrame1.2.3 DataS ...
Spark SQL知识点大全与实战
Spark SQL概述 1.什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块. 与基本的Spark RDD API不同,Sp ...
Spark SQL知识点与实战
Spark SQL概述 1.什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块. 与基本的Spark RDD API不同,Sp ...
Spark SQL数据加载和保存实战
一:前置知识详解: Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作, Load:可以创建DataFrame, Save:把DataFrame中的数 ...
Spark SQL数据载入和保存实战
一:前置知识具体解释: Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作. Load:能够创建DataFrame. Save:把DataFrame中 ...
Spark SQL原理及实战
一.Spark SQL的发展 1.spark SQL和shark SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当 ...
【慕课网实战】九、以慕课网日志分析为例进入大数据 Spark SQL 的世界
即席查询普通查询 Load Data1) RDD DataFrame/Dataset2) Local Cloud(HDFS/S3) 将数据加载成RDDval masterLog = sc.textFi ...
【慕课网实战】八、以慕课网日志分析为例进入大数据 Spark SQL 的世界
用户行为日志:用户每次访问网站时所有的行为数据(访问.浏览.搜索.点击...) 用户行为轨迹.流量日志日志数据内容: 1)访问的系统属性: 操作系统.浏览器等等 2)访问特征:点击的ur ...

随机推荐

maven build失败 (Failure to find io.renren:renren-security:pom:3.2.0 in http://maven.aliyun.com/nexus/content/groups/public/ was cached in the local repository...)
今天mvn clean package一个子工程(renren-admin)时报错: Failed to execute goal on project renren-admin: Could n ...
Web API 入门一
之前我也了解过Web API 这部分,但是没有系统学习,更没有相关记录,故现在,写些博客记录入门学习过程.首先,关于API,只要学习编程的都应该知道,也都用过,API(应用程序编程接口)是一些预先定义 ...
OpenCV-----Numpy数组
Nunmpy数组包含: 强大的N维数组对象复杂的(广播)功能集成C / C ++和Fortran代码的工具有用的线性代数,傅立叶变换和随机数功能遍历与修改数组中的所有像素点 #对所有像素进行循 ...
log.info（）传入多个参数的方法
不知道项目里用的是啥 ** 版本的 log4j 居然不能传入变长参数 logger.info(String.format("%s %s %s", username, feature ...
grunt默认只允许localhost和访问，如何设置外部IP地址访问
转载请注明出处: 猩猩队长 http://www.cnblogs.com/wayns/p/access_grunt_server_from_outside.html 使用Yeoman生成器创建web ...
Maven将jar包放入本地库
转自:https://blog.csdn.net/qq_33314107/article/details/73549256 这是由于Oracle授权问题,Maven3不提供Oracle JDBC dr ...
<s:iterator>标签迭代数据不显示
<s:iterator>标签迭代数据不显示 <s:iterator value="#request.voteOptionList" var="voteO ...
如何同步发送put或者delete请求
1.必须把前端发送方式改为post . 2.在web.xml中配置一个filter:HiddenHttpMethodFilter过滤器 3.必须携带一个键值对,key=_method, value= ...
VS 2019编辑含有资源文件.resx的项目时提示MSB3086 任务未能使用 SdkToolsPath 或注册表项找到“al.exe”
环境: Win10 X64, VS2019 错误提示: 错误 MSB3086 任务未能使用 SdkToolsPath“”或注册表项“HKEY_LOCAL_MACHINE\SOFTWARE\Micros ...
[NOI2004]郁闷的出纳员（平衡树）
[NOI2004]郁闷的出纳员题目链接题目描述 OIER公司是一家大型专业化软件公司,有着数以万计的员工.作为一名出纳员,我的任务之一便是统计每位员工的工资.这本来是一份不错的工作,但是令人郁闷的 ...

Spark SQL实战

一、程序

二、结果

Spark SQL实战的更多相关文章

随机推荐

热门专题