spark Basic code demo

spark-shell --master=spark://namenode01:7077 --executor-memory 2g --driver-class-path /app/spark141/lib/mysql-connector-java-5.1.6-bin.jar

hdfs dfs -put README.md ./

val file=sc.textFile("hdfs:///user/hadoop/README.md").filter(line=>line.contains("spark"))

val wordcount=sc.textFile("hdfs:///user/hadoop/README.md").flatMap(_.split(' ')).map（(_,1)）.reduceByKey(_+_)

wordcount.saveTextFile("/data/result")

//sort by count

val wordcount2=sc.textFile("hdfs:///user/hadoop/README.md").flatMap(_.split(' ')).map((_,1)).reduceByKey(_+_).map(x=>(x._2,x._1)).sortByKey().map(x=>(x._2,x._1))

wordcount2.saveAsTextFile("/data/wordcount2")

//启动hive metasotre service SPARK sql show

nohup hive --service metastore > metastore.log 2>&1 &

注意：如果要使用hive，需要将hive-site.xml文件复制到conf/下

pssh " cp /app/hive/lib/mysql-connector-java-5.1.6-bin.jar /app/spark141/lib/"

spark-shell --master=spark://namenode01:7077 --executor-memory 2g --driver-class-path /app/spark141/lib/mysql-connector-java-5.1.6-bin.jar

val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)

hiveContext.sql("use test")

hiveContext.sql("show tables").collect().foreach(println)

spark-sql --driver-class-path /app/spark141/lib/mysql-connector-java-5.1.6-bin.jar

just like use hive , write sql

use test

show tables

//parallelize show

val num=sc.parallelize(1 to 10)

val alpha=sc.parallelize('a' to 'z')

val num2=num.map(_*2).collect().foreach(println)

val num3=num.map(_%3==0).collect().foreach(println)

val num3=num.filter(_%3==0).collect().foreach(println)

num.reduce(_+_)

num.reduce(_*_)

num.reduceByKey(_+_)

num.sortBy(x=>x,false)

//K-V演示

val kv1=sc.parallelize(List(("A",1),("B",2),("C",3),("A",4),("B",5)))

kv1.sortByKey().collect //注意sortByKey的小括号不能省 asc

kv1.sortByKey(false).collect //desc

//how to sort by value?

kv1.map(x=>(x._2,x._1)).sortByKey().map(x=>(x._2,x._1)).collect

kv1.sortBy(x=>x).collect

kv1.groupByKey().collect

kv1.reduceByKey(_+_).collect

val kv2=sc.parallelize(List(("A",4),("A",4),("C",3),("A",4),("B",5)))

kv2.distinct.collect

kv1.union(kv2).collect

val kv3=sc.parallelize(List(("A",10),("B",20),("D",30)))

kv1.join(kv3).collect

kv1.cogroup(kv3).collect

val kv4=sc.parallelize(List(List(1,2),List(3,4)))

kv4.flatMap(x=>x.map(_+1)).collect

spark Basic code demo的更多相关文章

penpyxl basic function demo code
Openpyxl basic function demo code demo code: #!/usr/bin/env python # -*- coding: utf-8 -*- "&qu ...
spark source code 分析之ApplicationMaster overview（yarn deploy client mode）
一直不是很清楚ApplicationMaster的作用,尤其是在yarn client mode和cluster mode的区别网上有一些非常好的资料,请移步: https://blog.cloud ...
python spark 决策树入门demo
Refer to the DecisionTree Python docs and DecisionTreeModel Python docs for more details on the API. ...
Setup Spark source code environment
1. Install Java and set JAVA_HOME 2. Install Eclipse Juno Java IDE, Scala plugin and Scala Test 3. D ...
spark mllib prefixspan demo
./bin/spark-submit ~/src_test/prefix_span_test.py source code: import os import sys from pyspark.mll ...
parquet code demo
http://www.programcreek.com/java-api-examples/index.php?source_dir=hiped2-master/src/main/java/hip/c ...
hadoop+tachyon+spark的zybo cluster集群综合配置
1.zybo cluster 架构简述: 1.1 zybo cluster 包含5块zybo 开发板组成一个集群,zybo的boot文件为digilent zybo reference design提 ...
spark 1.3.0下的问题
1.在spark SQL的一个test中无论是registerAsTable还是registerTempTable 都会有问题,经过查找各种资料,采用如下的方式: val sqlCon=new or ...
Spark Streaming初步使用以及工作原理详解
在大数据的各种框架中,hadoop无疑是大数据的主流,但是随着电商企业的发展,hadoop只适用于一些离线数据的处理,无法应对一些实时数据的处理分析,我们需要一些实时计算框架来分析数据.因此出现了很多 ...

随机推荐

重新想象 Windows 8 Store Apps (53) - 绑定: 与 ObservableCollection CollectionViewSource VirtualizedFilesVector VirtualizedItemsVector 绑定
[源码下载] 重新想象 Windows 8 Store Apps (53) - 绑定: 与 ObservableCollection CollectionViewSource VirtualizedF ...
Interlocked.CompareExchange
class SourceManager { private SourceManager() { } private static SourceManager sourceManager; public ...
Win7配置Go环境
最近想学习下Go语言,先从最基本的Hello Go开始,搭建Go开发环境一.下载Go包由于Go官网国内访问经常有问题,可以从国内的镜像下载: http://www.golangtc.com/ 二. ...
IBATIS动态SQL（转）
直接使用JDBC一个非常普遍的问题就是动态SQL.使用参数值.参数本身和数据列都是动态SQL,通常是非常困难的.典型的解决办法就是用上一堆的IF-ELSE条件语句和一连串的字符串连接.对于这个问题,I ...
二、SQL语句映射文件(1)resultMap
//备注:该博客引自:http://limingnihao.iteye.com/blog/106076 SQL 映射XML 文件是所有sql语句放置的地方.需要定义一个workspace,一般定义为对 ...
Hibernate的缓存技术详解
转载注明出处:http://www.cnblogs.com/xiaoming0601/p/5882980.html 一.什么是缓存: 并不是指计算机的内存或者CPU的一二级缓存:缓存是指为了降低应用程 ...
python peewee.ImproperlyConfigured: MySQLdb or PyMySQL must be installed.
最近在学习Python,打算先看两个在线教程,再在github上找几个开源的项目练习一下,在学到“被解放的姜戈”时遇到django同步数据库时无法执行的错误,记录一下. 错误现象: 执行python ...
mysql ALL_O_DIRECT引发的unaligned AIO/DIO导致hang
公司内部有一套mysql环境,使用的是percona server分支(和其他几十套环境的版本.参数完全相同),就这套环境每隔两三天就会hang一次,关键hang的时候服务器cpu也就是百分之三四十, ...
Thumbnailator压缩图片
Thumbnailator是一款不可多得的处理图片的第三方工具包,它写法简单到让人无法相信,Java本身也有处理图片压缩的方法,但是代码冗长到让人痛不欲生,在篇末会给出Java本身的实现方式,做下对比 ...
微信公共平台开发3 .net
嗯,别的不说了现在开始接着上次http://www.cnblogs.com/QLJ1314/p/3838058.html 获取ACCESSTOKEN,开始吧,接下来我们就写发送文本消息吧. 首先建立 ...

spark Basic code demo

spark Basic code demo的更多相关文章

随机推荐

热门专题