读取文件的数据

使用的数据：https://codeload.github.com/xsankar/fdps-v3/zip/master

读取单个文件的数据

case class Employee(EmployeeID: String,

    LastName: String, FirstName: String, Title: String,

    BirthDate: String, HireDate: String,

    City: String, State: String, Zip: String, Country: String,

    ReportsTo: String)

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

    conf.set("spark.master", "local")

    conf.set("spark.app.name", "spark demo")

    val sc = new SparkContext(conf);

    val sqlContext = new org.apache.spark.sql.SQLContext(sc)

    // 创建spark对象

    val spark = SparkSession.builder().appName("spark sql").config(conf).getOrCreate();

    import spark.implicits._ // 这行必须引入不然下面的报错

    // header (default false): uses the first line as names of columns.

    val employees = spark.read.option("header", "true")

        .csv("hdfs://m3:9820/NW-Employees.csv").as[Employee];

   employees.show();

  }

　数据转换成一个视图，通过sql查询

case class Employee(EmployeeID: String,

    LastName: String, FirstName: String, Title: String,

    BirthDate: String, HireDate: String,

    City: String, State: String, Zip: String, Country: String,

    ReportsTo: String)

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

    conf.set("spark.master", "local")

    conf.set("spark.app.name", "spark demo")

    val sc = new SparkContext(conf);

    val sqlContext = new org.apache.spark.sql.SQLContext(sc)

    // 创建spark对象

    val spark = SparkSession.builder().appName("spark sql").config(conf).getOrCreate();

    import spark.implicits._ // 这行必须引入不然下面的报错

    // header (default false): uses the first line as names of columns.

    val employees = spark.read.option("header", "true")

        .csv("hdfs://m3:9820/NW-Employees.csv").as[Employee];

    // Creates a temporary view using the given name

    employees.createOrReplaceTempView("employeesTable");

    // 通过sql语句查询, 后面的表名不区分大小写

    val records = spark.sql("select * from EmployeesTable");

    records.show();

    records.head(2);

    records.explain(true);

  }

　join查询　

case class Order(OrderID: String,

    CustomerID: String, EmployeeID: String, OrderDate: String,

    ShipCountry: String)

  case class OrderDetail(OrderID: String,

    ProductID: String, UnitPrice: String, Qty: String,

    Discount: String)

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

    conf.set("spark.master", "local")

    conf.set("spark.app.name", "spark demo")

    val sc = new SparkContext(conf);

    val sqlContext = new org.apache.spark.sql.SQLContext(sc)

    // 创建spark对象

    val spark = SparkSession.builder().appName("spark sql").config(conf).getOrCreate();

    import spark.implicits._ // 这行必须引入不然下面的报错

    // header (default false): uses the first line as names of columns.

    val orders = spark.read.option("header", "true")

      .csv("hdfs://m3:9820/NW-Orders.csv").as[Order];

    val orderDetails = spark.read.option("header", "true")

      .csv("hdfs://m3:9820/NW-Order-Details.csv").as[OrderDetail];

    // Creates a temporary view using the given name

    orders.createOrReplaceTempView("orders")

    orderDetails.createOrReplaceTempView("orderDetails")

    // show 方法如果不显示的指定显示多少行，则默认显示20行

    // orders.show();

    // orderDetails.show();

    // 如果对表不指定别名，则别名和表明一样

    val joinResult = spark.sql("select o.OrderID, orderDetails.ProductID from orders o inner join orderDetails  on o.OrderID = orderDetails.OrderID")

    joinResult.show

  }

　数据的读取和写出　

def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

    conf.set("spark.master", "local")

    conf.set("spark.app.name", "spark demo")

    val sc = new SparkContext(conf);

    val sqlContext = new org.apache.spark.sql.SQLContext(sc)

    // 创建spark对象

    val spark = SparkSession.builder().appName("spark sql").config(conf).getOrCreate();

    import spark.implicits._ // 这行必须引入不然下面的报错

    // header (default false): uses the first line as names of columns.

    // inferSchema (default `false`): infers the input schema automatically from data. It

    // requires one extra pass over the data.

    // read data from file

    val cars = spark.read.option("header", "true").option("inferSchema", "true")

      .csv("hdfs://m3:9820/cars.csv");

    cars.show(5)

    cars.printSchema()   

    // write  data to file

    // overwrite 覆盖原来的数据

    // csv 保存数据

    cars.write.mode("overwrite").option("header", "true").csv("hdfs://m3:9820/cars_csv")

    // parquet 格式存储数据

    cars.write.mode("overwrite").partitionBy("year").parquet("hdfs://m3:9820/cars_parquet")

  }

　统计方法

def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

    conf.set("spark.master", "local")

    conf.set("spark.app.name", "spark demo")

    val sc = new SparkContext(conf);

    val sqlContext = new org.apache.spark.sql.SQLContext(sc)

    // 创建spark对象

    val spark = SparkSession.builder().appName("spark sql").config(conf).getOrCreate();

    import spark.implicits._ // 这行必须引入不然下面的报错

    // header (default false): uses the first line as names of columns.

    // inferSchema (default `false`): infers the input schema automatically from data. It

    // requires one extra pass over the data.

    // read data from file

    val cars = spark.read.option("header", "true").option("inferSchema", "true")

      .csv("hdfs://m3:9820/cars.csv");

    cars.show(5)

    cars.printSchema()   

    // 显示某一列的最大值、最小值、平均值、标准偏差

    cars.describe("model").show()

    // groupBy 分组    avg 求平均值

    cars.groupBy("year").avg("year").show()

    cars.show()

  }

def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

    conf.set("spark.master", "local")

    conf.set("spark.app.name", "spark demo")

    val sc = new SparkContext(conf);

    val sqlContext = new org.apache.spark.sql.SQLContext(sc)

    // 创建spark对象

    val spark = SparkSession.builder().appName("spark sql").config(conf).getOrCreate();

    import spark.implicits._ // 这行必须引入不然下面的报错

    // header (default false): uses the first line as names of columns.

    // inferSchema (default `false`): infers the input schema automatically from data. It

    // requires one extra pass over the data.

    // read data from file

    val passagers = spark.read.option("header", "true").option("inferSchema", "true")

      .csv("hdfs://m3:9820/titanic3_02.csv");

    // Pclass,Survived,Name,Gender,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Boat,Body,HomeDest

    // 选择dataset里面的一些列，生成新的dataset

    val passagers1 = passagers.select(passagers("Pclass"), passagers("Survived"),

           passagers("Gender"), passagers("Age"), passagers("SibSp"),

           passagers("Parch"), passagers("Fare"))

    passagers1.show

    passagers1.printSchema()

    passagers1.groupBy("Gender").count.show

    passagers1.stat.crosstab("Survived", "SibSp").show

  }

　线性回归　

def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

    //conf.set("spark.master", "spark://m2:7077")

    conf.set("spark.master", "local[4]")

    // 创建SparkSession对象

    val spark = SparkSession.builder().appName("spark sql").config(conf).getOrCreate();

    // 创建sparkContext对象

    // val sc = spark.sparkContext

    // inferSchema为true可以自动推测数据的类型，默认false，则所有的数据都是String类型的

    // 1、加载数据

    val cars = spark.read.option("header", "true").option("inferSchema", "true").csv("hdfs://m2:9820/car-milage.csv")

    /*cars.show(5)

    cars.printSchema()

    //  mpg|displacement| hp|torque|CRatio|RARatio|CarbBarrells|NoOfSpeed|length|width|weight|automatic|

    cars.describe("mpg", "hp", "weight", "automatic").show

    val corr = cars.stat.corr("hp", "weight")

    println("correlation is %2.4f".format(corr))

    val cov = cars.stat.cov("hp", "weight")

    // 协方差

    println("covariance is %2.4f".format(cov))*/

    // Returns a new [[DataFrame]] that drops rows containing any null or NaN values.

    val cars1 = cars.na.drop()

    // 2、创建一个向量

    val assembler = new VectorAssembler()

    // 设置输入

    assembler.setInputCols(Array("displacement", "hp", "torque", "CRatio",

      "RARatio", "CarbBarrells" ,"NoOfSpeed" ,"length", "width" , "weight" ,"automatic"

    ))

    // 设置输出

    assembler.setOutputCol("features")

    // 转换

    val cars2 = assembler.transform(cars1)

    // cars2.show();

    // 3、分类数据

    val train = cars2.filter(cars2("weight") <= 4000)

    val test = cars2.filter(cars2("weight") > 4000)

    // test.show

    // 4、设置线性回归的一些参数

    val linearReg = new LinearRegression

    // Set the maximum number of iterations(迭代)

    linearReg.setMaxIter(100)

    // Set the regularization(正则化) parameter

    linearReg.setRegParam(0.3)

    //  Set the ElasticNet mixing parameter

    // L2 (ridge regression)

    // - L1 (Lasso)

    // L2 + L1 (elastic net)

    // 默认是0 L2(ridge regression), 0 L2, 1 L1(Lasso) 大于0小于1是L2 + L1

    linearReg.setElasticNetParam(0.8)

    linearReg.setLabelCol("mpg") // 这个就是被预测的值得label

    // println("train count: " + train.count())

    // 5、对数据进行训练

    val mdlLR = linearReg.fit(train)

    println("totalIterations: " + mdlLR.summary.totalIterations)

    // 6、根据训练模型预测数据(prediction)

    val predictions = mdlLR.transform(test)

    predictions.show

    val evaluator = new RegressionEvaluator

    evaluator.setLabelCol("mpg")

    val rmse = evaluator.evaluate(predictions)

    // rmse root mean squared error

    println("root mean squared error = " + "%6.3f".format(rmse))

    evaluator.setMetricName("mse")

    val mse = evaluator.evaluate(predictions)

    // mean squared error

    println("mean squared error = " + "%6.3f".format(mse))

  }

　分类

def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

    conf.set("spark.master", "spark://m2:7077")

    // conf.set("spark.master", "local[8]")

    // 创建SparkSession对象

    val spark = SparkSession.builder().appName("spark sql").config(conf).getOrCreate();

    // 创建sparkContext对象

    // val sc = spark.sparkContext

    // inferSchema为true可以自动推测数据的类型，默认false，则所有的数据都是String类型的

    // 1、加载数据

    val passagers = spark.read.option("header", "true").option("inferSchema", "true")

         .csv("hdfs://m2:9820/titanic3_02.csv")

    // passagers.show()

    // passagers.printSchema()

    // 2、提取特征

       val passagers1 = passagers.select(passagers("Pclass"), passagers("Survived").cast(DoubleType).as("Survived"),

           passagers("Gender"), passagers("Age"), passagers("SibSp"), passagers("Parch")

           , passagers("Fare")) 

       // VectorAssembler 不支持字符串类型，转换Gender为数字类型

       val indexer = new StringIndexer

       indexer.setInputCol("Gender")

       indexer.setOutputCol("GenderCat")

       val passagers2 = indexer.fit(passagers1).transform(passagers1)

       // passagers2.show

       // 删除包含null或者NAN的行

       val passagers3 = passagers2.na.drop()

       println("total count:" + passagers2.count() + "  droped count is: " + (passagers2.count() - passagers3.count()))

       val vectorAssembler = new VectorAssembler

       vectorAssembler.setInputCols(Array("Pclass", "GenderCat", "Age", "SibSp", "Parch", "Fare"))

       vectorAssembler.setOutputCol("features")

       val passagers4 = vectorAssembler.transform(passagers3)

       // passagers4.show()

       // 3、数据分类，分为训练数据和测试数据

       val Array(train, test) = passagers4.randomSplit(Array(0.9, 0.1))

       // train.show()

       val algtree = new DecisionTreeClassifier

       algtree.setLabelCol("Survived")

       algtree.setImpurity("gini")

       algtree.setMaxBins(32)

       // Maximum depth of the tree

       algtree.setMaxDepth(5)

       // 模型

       val mdlTree = algtree.fit(train)

       // println(mdlTree.toDebugString)

       // println(mdlTree.toString)

       // println(mdlTree.featureImportances)

       //4、 利用模型评估

       val predictions = mdlTree.transform(test)

       predictions.show

       // 5、模型评估

       val evaluator = new MulticlassClassificationEvaluator

       evaluator.setLabelCol("Survived")

       // metric(度量标准) name in evaluation

       // (supports `"f1"` (default), `"weightedPrecision"`,`"weightedRecall"`, `"accuracy"`)

       evaluator.setMetricName("accuracy")

       val accuracy = evaluator.evaluate(predictions)

       println("the accuracy is %.2f%%".format(accuracy))

  }

聚类

def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

    conf.set("spark.master", "local[4]")

    // conf.set("spark.master", "local[8]")

    // 创建SparkSession对象

    val spark = SparkSession.builder().appName("spark sql").config(conf).getOrCreate();

    // 创建sparkContext对象

    // val sc = spark.sparkContext

    // inferSchema为true可以自动推测数据的类型，默认false，则所有的数据都是String类型的

    // 1、加载数据

    val points = spark.read.option("header", "true").option("inferSchema", "true")

         .csv("hdfs://m2:9820/cluster-points-v2.csv")

     // points.show()

     // points.printSchema()

    // 2、数据转换

    val vectorAssembler = new VectorAssembler

    vectorAssembler.setInputCols(Array("X", "Y"))

    vectorAssembler.setOutputCol("features")

    val points1 = vectorAssembler.transform(points)

    // points1.show()

    // points1.printSchema()

    // 3、聚类是一个非监督学习算法，不需要把数据分为train和test,这里是用k-means算法

    // key值(2)代表有多少个cluster

    val algKmeans = new KMeans().setK(2)

    // 模型

    val mdlKmeans = algKmeans.fit(points1)

    // 4、利用模型预测

    val predictions = mdlKmeans.transform(points1)

    // predictions.show

    // 5、评估 wsse 每个cluster中点到cluster中心的距离之和，越小越好

    val wsse = mdlKmeans.computeCost(points1)

    println(wsse)

  }

　　推荐

def parseRating(row: Row): Rating = {

    val aList = row.getList[String](0)

    Rating(aList.get(0).toInt, aList.get(1).toInt, aList.get(2).toDouble) //.getInt(0), row.getInt(1), row.getDouble(2))

  }

  def rowSqDiff(row:Row) : Double = {

	  math.pow( (row.getDouble(2) - row.getFloat(3).toDouble),2)

	}

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

    conf.set("spark.master", "local[4]")

    // conf.set("spark.master", "local[8]")

    // 创建SparkSession对象

    val spark = SparkSession.builder().appName("spark sql").config(conf).getOrCreate();

    // 创建sparkContext对象

    // val sc = spark.sparkContext

    // inferSchema为true可以自动推测数据的类型，默认false，则所有的数据都是String类型的

    val startTime = System.nanoTime()

    // 1、加载数据

    val movies = spark.read.text("hdfs://m3:9820/movies.dat")

    // movies.show()

    // movies.printSchema()

    val ratings = spark.read.text("hdfs://m3:9820/ratings.dat")

    // ratings.show()

    // ratings.printSchema()

    val users = spark.read.text("hdfs://m3:9820/users.dat")

    // users.show()

    // users.printSchema()

    val ratings1 = ratings.select(split(ratings("value"), "::")).as("values")

    // ratings1.show

    // 2、数据转换  Rating

    val rating2 = ratings1.rdd.map(parseRating(_))

    val rating3 = spark.createDataFrame(rating2)

    // rating3.show

    // 3、数据分为train和test

    val Array(train, test) = rating3.randomSplit(Array(0.8, 0.2))

    // 4、构建模型，训练数据

    val algAls = new ALS

    algAls.setItemCol("product")

    algAls.setRank(12)

    algAls.setRegParam(0.1) // 正则化参数

    algAls.setMaxIter(20)

    // 模型

    val mdlReco = algAls.fit(train)

    // mdlReco.

    // 5、预测数据

    val predictions = mdlReco.transform(test)

    predictions.show

    predictions.printSchema()

    // 6、算法评估

    // 过滤一些NAN数据

    val nanState = predictions.na.fill(99999.0)

    println(nanState.filter(nanState("prediction") > 99998).count())

    nanState.filter(nanState("prediction") > 99998).show(5)

    //

    val pred = predictions.na.drop()

    println("Orig = "+predictions.count()+" Final = "+ pred.count() + " Dropped = "+ (predictions.count() - pred.count()))

    // Calculate RMSE & MSE

    val evaluator = new RegressionEvaluator()

		evaluator.setLabelCol("rating")

		var rmse = evaluator.evaluate(pred)

		println("Root Mean Squared Error = "+"%.3f".format(rmse))

		//

		evaluator.setMetricName("mse")

		var mse = evaluator.evaluate(pred)

		println("Mean Squared Error = "+"%.3f".format(mse))

		mse = pred.rdd.map(r => rowSqDiff(r)).reduce(_+_) / predictions.count().toDouble

		println("Mean Squared Error (Calculated) = "+"%.3f".format(mse))

		//

    //

    val elapsedTime = (System.nanoTime() - startTime) / 1e9

    println("Elapsed time: %.2f seconds".format(elapsedTime))

    // MatrixFactorizationModel

  }

spark 基本操作的更多相关文章

spark 基本操作（二）
1.dataframe 基本操作 def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .appName ...
spark 基本操作整理
关于spark 的详细操作请参照spark官网 scala 版本:2.11.8 1.添加spark maven依赖,如需访问hdfs,则添加hdfs依赖 groupId = org.apache.sp ...
Spark数据分析-记录关联问题
1. 问题描述记录关联问题(Record Linkage):有大量从一个或多个源系统来的记录,其中有些记录可能代表了相同的基础实体. 每个实体有若干个属性,比如姓名.地址.生日.我们需要根据这些属性 ...
Spark安装部署（local和standalone模式）
Spark运行的4中模式: Local Standalone Yarn Mesos 一.安装spark前期准备 1.安装java $ sudo tar -zxvf jdk-7u67-linux-x64 ...
Spark RDD/Core 编程 API入门系列之rdd实战（rdd基本操作实战及transformation和action流程图）（源码）（三）
本博文的主要内容是: 1.rdd基本操作实战 2.transformation和action流程图 3.典型的transformation和action RDD有3种操作: 1. Trandform ...
Spark Streaming 基本操作
Spark Streaming 基本操作一.案例引入 3.1 StreamingContext 3.2 数据源 3.3 服务的启动与停止二.Transf ...
Spark笔记：RDD基本操作（下）
上一篇里我提到可以把RDD当作一个数组,这样我们在学习spark的API时候很多问题就能很好理解了.上篇文章里的API也都是基于RDD是数组的数据模型而进行操作的. Spark是一个计算框架,是对ma ...
Spark笔记：RDD基本操作（上）
本文主要是讲解spark里RDD的基础操作.RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十八）ES6.2.2 增删改查基本操作
#文档元数据一个文档不仅仅包含它的数据 ,也包含元数据 —— 有关文档的信息. 三个必须的元数据元素如下:## _index 文档在哪存放 ## _type 文档表示的对象类别 ## ...

随机推荐

iOS APP提交上架最新流程(转)
时隔1年又让我鼓捣iOS,刚接手就是上架,经验值为0的我,虽然内心是拒绝的,但还是要接受这项任务滴!也就是在被拒后重新审核,再改在提交...这样反复的过程中也对上架流程熟悉了好多,写篇帖子送给同为菜 ...
APP切图标记PS的外挂神器-Assistor PS（转）
目前APP设计师们对Assistor PS 可是好评连连,说是切图仔的福音或救星.确实是这样的. 与其他切图标记软件不同的是,Assistor PS 是完全独立于 PS 本身的,说是一个外挂更加合适, ...
WPF
最近在学习WPF,学习WPF首先上的是微软的MSDN,然后再搜索了一下网络有关WPF的学习资料.为了温故而知新把学习过程记录下来,以备后查.这篇主要讲WPF的开发基础,介绍了如何使用Visual St ...
JSON.stringify() / JSON.parse()
JSON.stringify() 这个方法可以把javascript对象转换成json字符串. JSON.parse() 这个方法可以把 json 字符串转换成 javascript对象. [下面来看 ...
AMR 转mp3 失败
private void changeToMp3(String sourcePath) { File source = new File(sourcePath); String mp3TargetPa ...
jQuery的.bind()、.live()和.delegate()之间区别
摘要:jQuery的.bind()..live()和.delegate()之间的区别并非总是那么明显的,然而,如果我们对所有的不同之处都有清晰的理解的话,那么这将会有助于我们编写出更加简洁的代码,以及 ...
MySQL-多条件拼接语句
BEGIN "; SET @_where=""; THEN SET @_where= CONCAT(@_where," AND sourcedomain=\&q ...
推荐Python Web开发测试驱动方法
http://www.cnblogs.com/dkblog/archive/2013/06/14/3135914.html推荐本人买的时候,京东打8.5折,现在降价啦,本书涵盖啦Django.Sel ...
info.plist、pch和四大对象(UIApplication、UIApplicationDelegate、UIWindow、UIViewController)
本文目录 1.程序配置文件info.plist,全局头文件pch 2.应用程序对象UIApplication介绍 3.UIApplicationDelegate介绍,程序启动过程 4.UIWindow ...
HDU 1528 贪心模拟/二分图
Card Game Cheater Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others ...

spark 基本操作

读取文件的数据

读取单个文件的数据

数据转换成一个视图，通过sql查询

join查询

数据的读取和写出

统计方法

线性回归

分类

聚类

推荐

spark 基本操作的更多相关文章

随机推荐

热门专题

　数据转换成一个视图，通过sql查询

　join查询　

　数据的读取和写出　

　统计方法

　线性回归　

　分类

　　推荐