Spark学习笔记——泰坦尼克生还预测

package kaggle

import org.apache.spark.SparkContext

import org.apache.spark.SparkConf

import org.apache.spark.sql.{SQLContext, SparkSession}

import org.apache.spark.mllib.regression.LabeledPoint

import org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, LogisticRegressionWithSGD, NaiveBayes, SVMWithSGD}

import org.apache.log4j.{Level, Logger}

import org.apache.spark.mllib.linalg.Vectors

import org.apache.spark.mllib.stat.Statistics

/**

  * Created by mi on 17-5-23.

  */

object Titanic {

  def main(args: Array[String]) {

    //    val sparkSession = SparkSession.builder.

    //      master("local")

    //      .appName("spark session example")

    //      .getOrCreate()

    //    val rawData = sparkSession.read.csv("/home/mi/下载/kaggle/Titanic/nohead-train.csv")

    //    val d = rawData.map{p => p.asInstanceOf[person]}

    //    d.show()

    val conf = new SparkConf().setAppName("WordCount").setMaster("local")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    //屏蔽日志

    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)

    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)

    // 读取数据

    val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "/home/mi/下载/kaggle/Titanic/train.csv", "header" -> "true"))

    // 分析年龄数据

    val ageAnalysis = df.rdd.filter(d => d(5) != null).map { d =>

      val age = d(5).toString.toDouble

      Vectors.dense(age)

    }

    val ageMean = Statistics.colStats(ageAnalysis).mean(0)

    val ageMax = Statistics.colStats(ageAnalysis).max(0)

    val ageMin = Statistics.colStats(ageAnalysis).min(0)

    val ageDiff = ageMax - ageMin

    // 分析船票价格数据

    val fareAnalysis = df.rdd.filter(d => d(9) != null).map { d =>

      val fare = d(9).toString.toDouble

      Vectors.dense(fare)

    }

    val fareMean = Statistics.colStats(fareAnalysis).mean(0)

    val fareMax = Statistics.colStats(fareAnalysis).max(0)

    val fareMin = Statistics.colStats(fareAnalysis).min(0)

    val fareDiff = fareMax - fareMin

    // 数据预处理

    val trainData = df.rdd.map { d =>

      val label = d(1).toString.toInt

      val sex = d(4) match {

        case "male" => 0.0

        case "female" => 1.0

      }

      val age = d(5) match {

        case null => (ageMean - ageMin) / ageDiff

        case _ => (d(5).toString().toDouble - ageMin) / ageDiff

      }

      val fare = d(9) match {

        case null => (fareMean - fareMin) / fareDiff

        case _ => (d(9).toString().toDouble - fareMin) / fareDiff

      }

      LabeledPoint(label, Vectors.dense(sex, age, fare))

    }

    // 切分数据集和测试集

    val Array(trainingData, testData) = trainData.randomSplit(Array(0.8, 0.2))

    // 训练数据

    val numIterations = 8

    val lrModel = new LogisticRegressionWithLBFGS().setNumClasses(2).run(trainingData)

    //    val svmModel = SVMWithSGD.train(trainingData, numIterations)

    val nbTotalCorrect = testData.map { point =>

      if (lrModel.predict(point.features) == point.label) 1 else 0

    }.sum

    val nbAccuracy = nbTotalCorrect / testData.count

    println("SVM模型正确率：" + nbAccuracy)

    // 预测

    // 读取数据

    val testdf = sqlContext.load("com.databricks.spark.csv", Map("path" -> "/home/mi/下载/kaggle/Titanic/test.csv", "header" -> "true"))

    // 分析测试集年龄数据

    val ageTestAnalysis = testdf.rdd.filter(d => d(4) != null).map { d =>

      val age = d(4).toString.toDouble

      Vectors.dense(age)

    }

    val ageTestMean = Statistics.colStats(ageTestAnalysis).mean(0)

    val ageTestMax = Statistics.colStats(ageTestAnalysis).max(0)

    val ageTestMin = Statistics.colStats(ageTestAnalysis).min(0)

    val ageTestDiff = ageTestMax - ageTestMin

    // 分析船票价格数据

    val fareTestAnalysis = testdf.rdd.filter(d => d(8) != null).map { d =>

      val fare = d(8).toString.toDouble

      Vectors.dense(fare)

    }

    val fareTestMean = Statistics.colStats(fareTestAnalysis).mean(0)

    val fareTestMax = Statistics.colStats(fareTestAnalysis).max(0)

    val fareTestMin = Statistics.colStats(fareTestAnalysis).min(0)

    val fareTestDiff = fareTestMax - fareTestMin

    // 数据预处理

    val data = testdf.rdd.map { d =>

      val sex = d(3) match {

        case "male" => 0.0

        case "female" => 1.0

      }

      val age = d(4) match {

        case null => (ageTestMean - ageTestMin) / ageTestDiff

        case _ => (d(4).toString().toDouble - ageTestMin) / ageTestDiff

      }

      val fare = d(8) match {

        case null => (fareTestMean - fareTestMin) / fareTestDiff

        case _ => (d(8).toString().toDouble - fareTestMin) / fareTestDiff

      }

      Vectors.dense(sex, age, fare)

    }

    val predictions = lrModel.predict(data).map(p => p.toInt)

    // 保存预测结果

    predictions.coalesce(1).saveAsTextFile("file:///home/mi/下载/kaggle/Titanic/test_predict")

  }

}

Spark学习笔记——泰坦尼克生还预测的更多相关文章

Spark学习笔记之SparkRDD
Spark学习笔记之SparkRDD 一. 基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ① 内存集合和外部存储系统 ② ...
spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...
Spark学习笔记2（spark所需环境配置
Spark学习笔记2 配置spark所需环境 1.首先先把本地的maven的压缩包解压到本地文件夹中,安装好本地的maven客户端程序,版本没有什么要求不需要最新版的maven客户端. 解压完成之后 ...
Spark学习笔记3（IDEA编写scala代码并打包上传集群运行）
Spark学习笔记3 IDEA编写scala代码并打包上传集群运行我们在IDEA上的maven项目已经搭建完成了,现在可以写一个简单的spark代码并且打成jar包上传至集群,来检验一下我们的sp ...
Spark学习笔记-GraphX-1
Spark学习笔记-GraphX-1 标签: SparkGraphGraphX图计算 2014-09-29 13:04 2339人阅读评论(0) 收藏举报分类: Spark(8) 版权声明: ...
Spark学习笔记3——RDD（下）
目录 Spark学习笔记3--RDD(下) 向Spark传递函数通过匿名内部类通过具名类传递通过带参数的 Java 函数类传递通过 lambda 表达式传递(仅限于 Java 8 及以上) 常 ...
Spark学习笔记0——简单了解和技术架构
目录 Spark学习笔记0--简单了解和技术架构什么是Spark 技术架构和软件栈 Spark Core Spark SQL Spark Streaming MLlib GraphX 集群管理器受 ...
Spark学习笔记2——RDD（上）
目录 Spark学习笔记2--RDD(上) RDD是什么? 例子创建 RDD 并行化方式读取外部数据集方式 RDD 操作转化操作行动操作惰性求值 Spark学习笔记2--RDD(上) 笔记摘 ...
Spark学习笔记1——第一个Spark程序：单词数统计
Spark学习笔记1--第一个Spark程序:单词数统计笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 添加依赖通过 Maven 添加 Spark-c ...

随机推荐

mongodb通过profile来监控数据
mongodb可以通过profile来监控数据,进行优化.查看当前是否开启profile功能用命令db.getProfilingLevel() 返回level等级,值为0|1|2,分别代表意思:0代表 ...
使用Date和SimpleDateFormat类表示时间
Date类: 使用 Date 类的默认无参构造方法创建出的对象就代表当前时间,我们可以直接输出 Date 对象显示当前的时间,显示的结果如下: Date d = new Date(); System. ...
C#编程（七十六）----------使用指针实现基于栈的高性能数组
使用指针实现基于栈的高性能数组以一个案例为主来分析实现方法: using System; using System.Collections.Generic; using System.Linq; u ...
selenium之关于 chromedriver的安装和使用
转自:https://blog.csdn.net/d77808675/article/details/79016271 最近在学习爬虫,用到了selenium 环境:Windows,python3 但 ...
js处理时间时区问题
问题背景:服务器时间是东八区时间,页面会在全世界各地,页面 JS 功能需要对比服务器时间和用户本地时间,为兼容世界各地时间,需要将用户本地时间转换为东八区时间一.基本概念 1.格林威治时间格林威治 ...
本地项目文件夹同步到GitLab的操作步骤
一.需求本地有一个微信小程序的项目源码,只是文件夹的形式,包括一些js和一些页面,想把这个文件夹用GitLab管理,于是就需要把本地文件夹push到服务器的GitLab上面二.操作 2.1:本地文 ...
MAC常用软件推荐
SQL建模 http://dbwrench.com/download/install/mac_install.shtml 参考https://github.com/helantao/macOS/blo ...
【CSS Demo】网站页面变灰
让网站所有元素变成灰色调,全浏览器支持,使用了滤镜,比较吃性能,建议作临时方案使用. 实现效果(点击下面的按钮): 这里放一张图片作为效果展示: 其CSS代码如下: body{ -webkit-fil ...
Linux虚拟文件系统
从文件 I/O 看 Linux 的虚拟文件系统 1 引言 Linux 中允许众多不同的文件系统共存,如 ext2, ext3, vfat 等.通过使用同一套文件 I/O 系统调用即可对 Linux ...
C#-MVC开发微信应用(6)--用户分组信息管理
让我们继续深入探索这方面的技术,为了更好的应用起来,专心做好底层的技术开发.本篇继续上一篇的介绍,主要介绍分组管理方面的开发应用,这篇的内容和上一篇,作为一个完整的用户信息和分组信息管理的组合. 1. ...

Spark学习笔记——泰坦尼克生还预测

Spark学习笔记——泰坦尼克生还预测的更多相关文章

随机推荐

热门专题