Spark学习笔记——文本处理技术

1.建立TF-IDF模型

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.mllib.linalg.{SparseVector => SV}

import org.apache.spark.mllib.feature.HashingTF

import org.apache.spark.mllib.feature.IDF

/**

  * Created by common on 17-5-6.

  */

object TFIDF {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("WordCount").setMaster("local")

    val sc = new SparkContext(conf)

//    val path = "hdfs://master:9000/user/common/20Newsgroups/20news-bydate-train/*"

    val path = "file:///media/common/工作/kaggle/test/*"

    val rdd = sc.wholeTextFiles(path)

    // 提取文本信息

    val text = rdd.map { case (file, text) => text }

    //    print(text.count())

    val regex = """[^0-9]*""".r

    // 排除停用词

    val stopwords = Set(

      "the", "a", "an", "of", "or", "in", "for", "by", "on", "but", "is", "not",

      "with", "as", "was", "if",

      "they", "are", "this", "and", "it", "have", "from", "at", "my",

      "be", "that", "to"

    )

    // 以使用正则表达切分原始文档来移除这些非单词字符

    val nonWordSplit = text.flatMap(t =>

      t.split("""\W+""").map(_.toLowerCase))

    // 过滤掉数字和包含数字的单词

    val filterNumbers = nonWordSplit.filter(token =>

      regex.pattern.matcher(token).matches)

    // 基于出现的频率，排除很少出现的单词，需要先计算一遍整个测试集

    val tokenCounts = filterNumbers.map(t => (t, 1)).reduceByKey(_ + _)

    val rareTokens = tokenCounts.filter { case (k, v) => v < 2 }.map {

      case (k, v) => k

    }.collect.toSet

    // 每一个文档的预处理函数

    def tokenize(line: String): Seq[String] = {

      line.split("""\W+""")

        .map(_.toLowerCase)

        .filter(token => regex.pattern.matcher(token).matches)

        .filterNot(token => stopwords.contains(token))

        .filterNot(token => rareTokens.contains(token))

        .filter(token => token.size >= 2) //删除只有一个字母的单词

        .toSeq

    }

    // 每一篇文档经过预处理之后，每一个文档成为一个Seq[String]

    val tokens = text.map(doc => tokenize(doc)).cache()

    println(tokens.distinct.count)

    // 第一篇文档第一部分分词之后的结果

    println(tokens.first())

    println(tokens.first().length)

    // 生成2^18维的特征

    val dim = math.pow(2, 18).toInt

    val hashingTF = new HashingTF(dim)

    // HashingTF 的 transform 函数把每个输入文档(即词项的序列)映射到一个MLlib的Vector对象

    val tf = hashingTF.transform(tokens)

    // tf的长度是文档的个数，对应的是文档和维度的矩阵

    tf.cache

    // 取得第一个文档的向量

    val v = tf.first.asInstanceOf[SV]

    println(v.size)

    // v.value和v.indices的长度相等，value是词频，indices是词频非零的下标

    println(v.values.size)

    println(v.indices.size)

    println(v.values.toSeq)

    println(v.indices.take(10).toSeq)

    // 对每个单词计算逆向文本频率

    val idf = new IDF().fit(tf)

    // 转换词频向量为TF-IDF向量

    val tfidf = idf.transform(tf)

    val v2 = tfidf.first.asInstanceOf[SV]

    println(v2.values.size)

    println(v2.values.take(10).toSeq)

    println(v2.indices.take(10).toSeq)

    // 计算整个文档的TF-IDF最小和最大权值

    val minMaxVals = tfidf.map { v =>

      val sv = v.asInstanceOf[SV]

      (sv.values.min, sv.values.max)

    }

    val globalMinMax = minMaxVals.reduce { case ((min1, max1),

    (min2, max2)) =>

      (math.min(min1, min2), math.max(max1, max2))

    }

    println(globalMinMax)

    // 比较几个单词的TF-IDF权值

    val common = sc.parallelize(Seq(Seq("you", "do", "we")))

    val tfCommon = hashingTF.transform(common)

    val tfidfCommon = idf.transform(tfCommon)

    val commonVector = tfidfCommon.first.asInstanceOf[SV]

    println(commonVector.values.toSeq)

    val uncommon = sc.parallelize(Seq(Seq("telescope", "legislation","investment")))

    val tfUncommon = hashingTF.transform(uncommon)

    val tfidfUncommon = idf.transform(tfUncommon)

    val uncommonVector = tfidfUncommon.first.asInstanceOf[SV]

    println(uncommonVector.values.toSeq)

  }

}

Spark学习笔记——文本处理技术的更多相关文章

Spark学习笔记0——简单了解和技术架构
目录 Spark学习笔记0--简单了解和技术架构什么是Spark 技术架构和软件栈 Spark Core Spark SQL Spark Streaming MLlib GraphX 集群管理器受 ...
spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...
Spark学习笔记3——RDD（下）
目录 Spark学习笔记3--RDD(下) 向Spark传递函数通过匿名内部类通过具名类传递通过带参数的 Java 函数类传递通过 lambda 表达式传递(仅限于 Java 8 及以上) 常 ...
Spark学习笔记之SparkRDD
Spark学习笔记之SparkRDD 一. 基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ① 内存集合和外部存储系统 ② ...
Spark学习笔记2（spark所需环境配置
Spark学习笔记2 配置spark所需环境 1.首先先把本地的maven的压缩包解压到本地文件夹中,安装好本地的maven客户端程序,版本没有什么要求不需要最新版的maven客户端. 解压完成之后 ...
Spark学习笔记3（IDEA编写scala代码并打包上传集群运行）
Spark学习笔记3 IDEA编写scala代码并打包上传集群运行我们在IDEA上的maven项目已经搭建完成了,现在可以写一个简单的spark代码并且打成jar包上传至集群,来检验一下我们的sp ...
golang学习笔记17 爬虫技术路线图，python，java，nodejs，go语言，scrapy主流框架介绍
golang学习笔记17 爬虫技术路线图,python,java,nodejs,go语言,scrapy主流框架介绍 go语言爬虫框架:gocolly/colly,goquery,colly,chrom ...
Spark学习笔记-GraphX-1
Spark学习笔记-GraphX-1 标签: SparkGraphGraphX图计算 2014-09-29 13:04 2339人阅读评论(0) 收藏举报分类: Spark(8) 版权声明: ...
Spark学习笔记2——RDD（上）
目录 Spark学习笔记2--RDD(上) RDD是什么? 例子创建 RDD 并行化方式读取外部数据集方式 RDD 操作转化操作行动操作惰性求值 Spark学习笔记2--RDD(上) 笔记摘 ...

随机推荐

Shiro笔记（四）编码/加密
Shiro笔记(四)编码/加密一.编码和解码 //base64编码.解码 @Test public void testBase64(){ String str="tang"; b ...
Python 爬取bangumi网页信息
1.数据库连接池 #######db.py########## import time import pymysql import threading from DBUtils.PooledDB im ...
C# Request 获取Url
1.获取页面,HttpContext.Current.Request也是Request //获取当前页面url string myurl = System.Web.HttpContext.Curren ...
VS2012 VS2015打开项目加载失败
VS2012 VS2015打开项目加载失败改成这个$(MSBuildToolsVersion)试试
C++.Linux下redis编程：error while loading shared libraries: libhiredis.so.0.13
编译 sudo gcc -o sltest01 sltest01.c -L/usr/local/lib/ -lhiredis 运行 sudo ./sltest01 编译成功后运行报错信息: ./slt ...
Hbase多版本的读写（Shell&Java API版）
Hbase是基于HDFS的NOsql数据库,它很多地方跟数据库差不多,也有很多不同的地方.这里就不一一列举了,不过Hbase有个版本控制的特性,这个特性在很多场景下都会发挥很大的作用.本篇就介绍下基于 ...
Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko
Trident (又称为MSHTML),是微软的窗口操作系统(Windows)搭载的网页浏览器—Internet Explorer的排版引擎的名称. 它的第一个版本随着1997年10月Internet ...
task_payment_byonlinedown
CREATE DEFINER=`root`@`%` PROCEDURE `vir`.`task_payment_byonlinedown`()begin declare _mobile varchar ...
使用Github添加标签
Github为我们提供了在页面上进行编辑发行版本的方式,如下图所示: 在Github上为项目打tag可在release页面,选择创建新tag并按下图所示填写即可.删除tag也同理.
鼠标滑过table时修改表格行的背景颜色
方法一: #customers tr:hover { background-color: #f00; } 方法二: <tr onmouseover="style.backgroundC ...

Spark学习笔记——文本处理技术

Spark学习笔记——文本处理技术的更多相关文章

随机推荐

热门专题