Spark学习笔记——基于MLlib的机器学习

使用MLlib库中的机器学习算法对垃圾邮件进行分类

分类的垃圾邮件的如图中分成4个文件夹，两个文件夹是训练集合，两个文件夹是测试集合

build.sbt文件

name := "spark-first"

version := "1.0"

scalaVersion := "2.11.8"

libraryDependencies ++= Seq(

  "org.apache.spark" % "spark-core_2.11" % "2.1.0",

  "org.apache.hadoop" % "hadoop-common" % "2.7.2",

  "mysql" % "mysql-connector-java" % "5.1.31",

  "org.apache.spark" %% "spark-sql" % "2.1.0",

  "org.apache.spark" %% "spark-streaming" % "2.1.0",

  "org.apache.spark" % "spark-mllib_2.11" % "2.1.0"

)

代码

import org.apache.hadoop.io.{IntWritable, LongWritable, MapWritable, Text}

import org.apache.spark.SparkContext

import org.apache.spark.SparkConf

import org.apache.spark._

import org.apache.hadoop.mapreduce.Job

import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat

import org.apache.spark.sql.SQLContext

import java.util.Properties

import org.apache.spark.streaming.StreamingContext

import org.apache.spark.streaming.StreamingContext._

import org.apache.spark.streaming.dstream.DStream

import org.apache.spark.streaming.Duration

import org.apache.spark.streaming.Seconds

import org.apache.spark.mllib.regression.LabeledPoint

import org.apache.spark.mllib.feature.HashingTF

import org.apache.spark.mllib.classification.LogisticRegressionWithSGD

/**

  * Created by common on 17-4-6.

  */

object SparkRDD {

  def main(args: Array[String]) {

    val conf = new SparkConf().setAppName("WordCount").setMaster("local")

    val sc = new SparkContext(conf)

    val spam = sc.textFile("input/email/spam")

    val normal = sc.textFile("input/email/ham")

    // 创建一个HashingTF实例来把邮件文本映射为包含10000个特征的向量

    val tf = new HashingTF(numFeatures = 10000)

    // 各邮件都被切分为单词，每个单词被映射为一个特征

    val spamFeatures = spam.map(email => tf.transform(email.split(" ")))

    val normalFeatures = normal.map(email => tf.transform(email.split(" ")))

    // 创建LabeledPoint数据集分别存放阳性（垃圾邮件）和阴性（正常邮件）的例子

    val positiveExamples = spamFeatures.map(features => LabeledPoint(1, features))

    val negativeExamples = normalFeatures.map(features => LabeledPoint(0, features))

    val trainingData = positiveExamples.union(negativeExamples)

    trainingData.cache() // 因为逻辑回归是迭代算法，所以缓存训练数据RDD

    // 使用SGD算法运行逻辑回归

    val model = new LogisticRegressionWithSGD().run(trainingData)

    // 以阳性（垃圾邮件）和阴性（正常邮件）的例子分别进行测试

    val posTest = tf.transform(

      "Experience with BiggerPenis Today! Grow 3-inches more ...".split(" "))

    val negTest = tf.transform(

      "That is cold.  Is there going to be a retirement party? ...".split(" "))

    println("Prediction for positive test example: " + model.predict(posTest))

    println("Prediction for negative test example: " + model.predict(negTest))

  }

}

结果

Spark学习笔记——基于MLlib的机器学习的更多相关文章

Spark学习之基于MLlib的机器学习
Spark学习之基于MLlib的机器学习 1. 机器学习算法尝试根据训练数据(training data)使得表示算法行为的数学目标最大化,并以此来进行预测或作出决定. 2. MLlib完成文本分类任 ...
spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...
Spark学习笔记0——简单了解和技术架构
目录 Spark学习笔记0--简单了解和技术架构什么是Spark 技术架构和软件栈 Spark Core Spark SQL Spark Streaming MLlib GraphX 集群管理器受 ...
Spark学习笔记-GraphX-1
Spark学习笔记-GraphX-1 标签: SparkGraphGraphX图计算 2014-09-29 13:04 2339人阅读评论(0) 收藏举报分类: Spark(8) 版权声明: ...
Spark学习笔记之SparkRDD
Spark学习笔记之SparkRDD 一. 基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ① 内存集合和外部存储系统 ② ...
Spark学习笔记2（spark所需环境配置
Spark学习笔记2 配置spark所需环境 1.首先先把本地的maven的压缩包解压到本地文件夹中,安装好本地的maven客户端程序,版本没有什么要求不需要最新版的maven客户端. 解压完成之后 ...
Spark学习笔记3（IDEA编写scala代码并打包上传集群运行）
Spark学习笔记3 IDEA编写scala代码并打包上传集群运行我们在IDEA上的maven项目已经搭建完成了,现在可以写一个简单的spark代码并且打成jar包上传至集群,来检验一下我们的sp ...
Linux学习笔记——基于鸟哥的Linux私房菜
Linux学习笔记--基于鸟哥的Linux私房菜 ***** ARM与嵌入式linux的入门建议 (1) 学习基本的裸机编程:ARM7或ARM9,理解硬件架构和控制原理 (这一步是绝对的根基) (2) ...
Spark学习笔记3——RDD（下）
目录 Spark学习笔记3--RDD(下) 向Spark传递函数通过匿名内部类通过具名类传递通过带参数的 Java 函数类传递通过 lambda 表达式传递(仅限于 Java 8 及以上) 常 ...

随机推荐

wamp memcache 的安装与扩展（Windows 64）
一.windows操作系统下的memcache安装 1.此处提供32位的安装包链接,如果需要64位的应该可惜查得到.将下载的压缩包解压到自己确定的安装目录,我的参考如下: 2.为了安装顺利,所以需要以 ...
mongodb通过profile来监控数据
mongodb可以通过profile来监控数据,进行优化.查看当前是否开启profile功能用命令db.getProfilingLevel() 返回level等级,值为0|1|2,分别代表意思:0代表 ...
Synchronized、lock、volatile、ThreadLocal、原子性总结、Condition
http://blog.csdn.net/sinat_29621543/article/details/78065062
java泛型-自定义泛型方法与类型推断总结
下面是自定义泛型方法的练习: package com.mari.generic; import java.util.ArrayList; import java.util.Collection; im ...
Dll注入经典方法完整版
总结一下基本的注入过程,分注入和卸载注入Dll: 1,OpenProcess获得要注入进程的句柄 2,VirtualAllocEx在远程进程中开辟出一段内存,长度为strlen(dllname)+1 ...
Unity3D游戏制作（三）——移动平台上的角色阴影制作
本系列文章由 Amazonzx 编写,欢迎转载,转载请注明出处. http://blog.csdn.net/amazonzx/article/details/7973740 本文将重点介绍两种目前在移 ...
Go语言之高级篇beego框架之请求数据处理
1.Controller中数据参数处理获取参数:我们经常需要获取用户传递的数据,包括 Get.POST 等方式的请求,beego 里面会自动解析这些数据,你可以通过如下方式获取数据: GetStri ...
Android 面试题 MD
Markdown版本笔记我的GitHub首页我的博客我的微信我的邮箱 MyAndroidBlogs baiqiantao baiqiantao bqt20094 baiqiantao@sina ...
【Windows】Windows中解析DOS的for命令使用
目录结构: contents structure [+] 简介 for /d ... in ... 案例案例:打印C://根目录下所有的文件夹名称案例:打印当前路径下,只有1-3个字母的文件夹名 ...
arcgismanager登陆信息不对
arcgis版本:arcgis10 安装arcgis server后(java版的win764位系统),发现arcgis管理器登陆界面(http://localhost:8099/arcgismana ...

Spark学习笔记——基于MLlib的机器学习

Spark学习笔记——基于MLlib的机器学习的更多相关文章

随机推荐

热门专题