spark Basic code demo

spark-shell --master=spark://namenode01:7077 --executor-memory 2g --driver-class-path /app/spark141/lib/mysql-connector-java-5.1.6-bin.jar

hdfs dfs -put README.md ./

val file=sc.textFile("hdfs:///user/hadoop/README.md").filter(line=>line.contains("spark"))

val wordcount=sc.textFile("hdfs:///user/hadoop/README.md").flatMap(_.split(' ')).map（(_,1)）.reduceByKey(_+_)

wordcount.saveTextFile("/data/result")

//sort by count

val wordcount2=sc.textFile("hdfs:///user/hadoop/README.md").flatMap(_.split(' ')).map((_,1)).reduceByKey(_+_).map(x=>(x._2,x._1)).sortByKey().map(x=>(x._2,x._1))

wordcount2.saveAsTextFile("/data/wordcount2")

//启动hive metasotre service SPARK sql show

nohup hive --service metastore > metastore.log 2>&1 &

注意：如果要使用hive，需要将hive-site.xml文件复制到conf/下

pssh " cp /app/hive/lib/mysql-connector-java-5.1.6-bin.jar /app/spark141/lib/"

spark-shell --master=spark://namenode01:7077 --executor-memory 2g --driver-class-path /app/spark141/lib/mysql-connector-java-5.1.6-bin.jar

val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)

hiveContext.sql("use test")

hiveContext.sql("show tables").collect().foreach(println)

spark-sql --driver-class-path /app/spark141/lib/mysql-connector-java-5.1.6-bin.jar

just like use hive , write sql

use test

show tables

//parallelize show

val num=sc.parallelize(1 to 10)

val alpha=sc.parallelize('a' to 'z')

val num2=num.map(_*2).collect().foreach(println)

val num3=num.map(_%3==0).collect().foreach(println)

val num3=num.filter(_%3==0).collect().foreach(println)

num.reduce(_+_)

num.reduce(_*_)

num.reduceByKey(_+_)

num.sortBy(x=>x,false)

//K-V演示

val kv1=sc.parallelize(List(("A",1),("B",2),("C",3),("A",4),("B",5)))

kv1.sortByKey().collect //注意sortByKey的小括号不能省 asc

kv1.sortByKey(false).collect //desc

//how to sort by value?

kv1.map(x=>(x._2,x._1)).sortByKey().map(x=>(x._2,x._1)).collect

kv1.sortBy(x=>x).collect

kv1.groupByKey().collect

kv1.reduceByKey(_+_).collect

val kv2=sc.parallelize(List(("A",4),("A",4),("C",3),("A",4),("B",5)))

kv2.distinct.collect

kv1.union(kv2).collect

val kv3=sc.parallelize(List(("A",10),("B",20),("D",30)))

kv1.join(kv3).collect

kv1.cogroup(kv3).collect

val kv4=sc.parallelize(List(List(1,2),List(3,4)))

kv4.flatMap(x=>x.map(_+1)).collect

spark Basic code demo的更多相关文章

penpyxl basic function demo code
Openpyxl basic function demo code demo code: #!/usr/bin/env python # -*- coding: utf-8 -*- "&qu ...
spark source code 分析之ApplicationMaster overview（yarn deploy client mode）
一直不是很清楚ApplicationMaster的作用,尤其是在yarn client mode和cluster mode的区别网上有一些非常好的资料,请移步: https://blog.cloud ...
python spark 决策树入门demo
Refer to the DecisionTree Python docs and DecisionTreeModel Python docs for more details on the API. ...
Setup Spark source code environment
1. Install Java and set JAVA_HOME 2. Install Eclipse Juno Java IDE, Scala plugin and Scala Test 3. D ...
spark mllib prefixspan demo
./bin/spark-submit ~/src_test/prefix_span_test.py source code: import os import sys from pyspark.mll ...
parquet code demo
http://www.programcreek.com/java-api-examples/index.php?source_dir=hiped2-master/src/main/java/hip/c ...
hadoop+tachyon+spark的zybo cluster集群综合配置
1.zybo cluster 架构简述: 1.1 zybo cluster 包含5块zybo 开发板组成一个集群,zybo的boot文件为digilent zybo reference design提 ...
spark 1.3.0下的问题
1.在spark SQL的一个test中无论是registerAsTable还是registerTempTable 都会有问题,经过查找各种资料,采用如下的方式: val sqlCon=new or ...
Spark Streaming初步使用以及工作原理详解
在大数据的各种框架中,hadoop无疑是大数据的主流,但是随着电商企业的发展,hadoop只适用于一些离线数据的处理,无法应对一些实时数据的处理分析,我们需要一些实时计算框架来分析数据.因此出现了很多 ...

随机推荐

关于iPhone多点触控
虽然这个问题很简单,但是对于我这接触两天的菜鸟来说也弄了很久,网上又找不到相关的解决方法,避免其他人和我一样,还是记录一下一般网上找到的教程是这么教: -(void )touchesBegin:(N ...
JavaScript常用代码
页面的按钮全选: function CheckBoxAll() { //得到页面上所有input表单元素:document.getElementsByTagName( ...
方法----MessageDigest和DigestUtils加密算法
总结:使用DigestUtils的方法加密的结果与messageDigest的方法加密结果一致,可使用DigestUtils替换MessageDigest 可省掉部分代码 package com.ac ...
rabbitmq学习笔记1 安装和配置
环境 OS: CentOS Linux release 7.1.1503 (Core) kernel:3.10.0-229.el7.x86_64 安装参考:http://www.rabbitmq ...
2013 最新的 play web framework 版本 1.2.3 框架学习文档整理
Play framework框架学习文档 Play framework框架学习文档 1 一.什么是Playframework 3 二.playframework框架的优点 4 三.Play Frame ...
Linux 学习手记(4)：Linux系统常用Shell命令
日期时间 date命令:显示当前时间日期 date -u # 显示格林威治(UTC)事件 date +%Y-%m-%d # 格式显示日期 date -s '20:25:25' # 修改系统时间,需要使 ...
ResponsiveSlides.js 幻灯片实例演示
在线实例默认效果导航和分页缩略图描述说明回调函数 <div class="wrap"> <ul class="rslides" ...
canvas圆形进度条
通过定义一个canvas标签, new方法传进ID值,和旋转角度值,即可生成圆形进度条 <!DOCTYPE html> <html lang="en"> & ...
浅析对象访问属性的"."和"[]"方法区别
在JavaScript中通常使用”."运算符来存取对象的属性的值.或者使用[]作为一个关联数组来存取对象的属性.但是这两种方式有什么区别了? 例如,读取object中的property属性值 ...
C语言常量与指针
C语言功能强大而丰富,还表现在const与指针的结合使用上,对不同的问题,它提供不同的保护,特别有用的是指向常量的指针本文地址:http://www.cnblogs.com/archimedes/p ...

spark Basic code demo

spark Basic code demo的更多相关文章

随机推荐

热门专题