Spark 机器学习 ---TF-IDF

package Spark_MLlib

import org.apache.spark.ml.feature.{HashingTF, IDF, Tokenizer}

import org.apache.spark.sql.SparkSession

/**

  * TF-IDF

  */

object 特征抽取 {

       val spark=SparkSession.builder().master("local").appName("TF-IDF").getOrCreate()

          import spark.implicits._

  def main(args: Array[String]): Unit = {

        val soureceData= spark.createDataFrame(Seq(

          (,"soyo spark like spark hadoop spark and spark like spark"),

          (,"i wish i can like java i"),

          (,"but i dont know how to soyo"),

          (,"spark is good spark tool")

        )).toDF("label","sentence")

       //进行分词

       val tokenizer=new Tokenizer().setInputCol("sentence").setOutputCol("words")

       val wordsData=tokenizer.transform(soureceData)

           wordsData.show(false)  //表示不省略,打印字符串的所有单词

       val hashTF=new HashingTF().setInputCol("words").setOutputCol("rawsFeatures").setNumFeatures()

       //生成特征向量

       val featuredData=hashTF.transform(wordsData)

           featuredData.show(false)

       val idf=new IDF().setInputCol("rawsFeatures").setOutputCol("features")

       val idfModel=idf.fit(featuredData)

       val result=idfModel.transform(featuredData)

       result.show(false)

       result.select("label","features").show(false)

  }

}

结果：

+-----+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|label|features                                                                                                                                                                  |
+-----+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|0    |(1000,[105,107,181,330,333],[2.5541281188299534,0.5108256237659907,0.9162907318741551,1.0216512475319814,0.9162907318741551])                                             |
|1    |(1000,[329,330,495,833,967],[1.5324768712979722,0.5108256237659907,0.9162907318741551,0.9162907318741551,0.9162907318741551])                                             |
|2    |(1000,[83,107,237,329,388,779,977],[0.9162907318741551,0.5108256237659907,0.9162907318741551,0.5108256237659907,0.9162907318741551,0.9162907318741551,0.9162907318741551])|
|3    |(1000,[105,111,168,281],[1.0216512475319814,0.9162907318741551,0.9162907318741551,0.9162907318741551])                                                                    |
+-----+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+

Spark 机器学习 ---TF-IDF的更多相关文章

Spark机器学习8· 文本处理(spark-shell)
Spark机器学习自然语言处理(NLP,Natural Language Processing) 提取特征建模机器学习 TF-IDF(词频 term frequency–逆向文件频率 inver ...
Spark机器学习API之特征处理（一）
Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFram ...
spark机器学习从0到1特征提取 TF-IDF(十二）
一.概念 “词频-逆向文件频率”(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度. 词语由t表示,文档由d表示,语料库由D表示.词频TF ...
Spark机器学习· 实时机器学习
Spark机器学习 1 在线学习模型随着接收的新消息,不断更新自己:而不是像离线训练一次次重新训练. 2 Spark Streaming 离散化流(DStream) 输入源:Akka actors. ...
TF/IDF（term frequency/inverse document frequency)
TF/IDF(term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明. 一. TF/IDF描述单个term与特定document的相 ...
基于TF/IDF的聚类算法原理
一.TF/IDF描述单个term与特定document的相关性TF(Term Frequency): 表示一个term与某个document的相关性. 公式为这个term在document中出 ...
使用solr的函数查询,并获取tf*idf值
1. 使用函数df(field,keyword) 和idf(field,keyword). http://118.85.207.11:11100/solr/mobile/select?q={!func ...
Spark机器学习 Day2 快速理解机器学习
Spark机器学习 Day2 快速理解机器学习有两个问题: 机器学习到底是什么. 大数据机器学习到底是什么. 机器学习到底是什么人正常思维的过程是根据历史经验得出一定的规律,然后在当前情况下根据这 ...
Spark机器学习 Day1 机器学习概述
Spark机器学习 Day1 机器学习概述今天主要讨论个问题:Spark机器学习的本质是什么,其内部构成到底是什么. 简单来说,机器学习是数据+算法. 数据在Spark中做机器学习,肯定有数据来源 ...
TF/IDF计算方法
FROM:http://blog.csdn.net/pennyliang/article/details/1231028 我们已经谈过了如何自动下载网页.如何建立索引.如何衡量网页的质量(Page R ...

随机推荐

Microsoft SQL Server 安全与权限
Microsoft SQL Server 安全与权限登陆角色计算机操作系统用户 --创建Windows身份验证用户 USE [master] GO CREATE LOGIN [计算机名称\计算机用 ...
自定义php函数的mysql数据库pdo包装
define('DB_DSN','mysql:dbname=数据库名;charset=UTF8');define('DB_USER','root');define('DB_PASSWORD',''); ...
java string与byte互转
1.string 转 byte[]byte[] midbytes=isoString.getBytes("UTF8");//为UTF8编码byte[] isoret = srt2. ...
Bullet:ORACLE Using SQL Plan Management(一)
SQL Plan Management如何工作? 当一个SQL硬解析时,基于成本的优化器CBO会生成多个执行计划,并从这些执行计划中选择一个优化器认为最低成本的执行计划. 如果SQL plan bas ...
oracle打开或者关闭flashback
1.打开flashback: 关闭数据库 SQL>shutdown immediate; 启动到mount方式 SQL>startup mount; 如果归档没有打开,打开归档[因为fla ...
VS C#报错CS1056意外的字符"(Unexpected Character")
今天重装了下VS2017,再打开之前的项目发现运行不了了,报错如图解决方法: 找到.NETFramework,Version=v4.5.2.AssemblyAttributes.cs这个文件删除就好 ...
【转】精选十二款餐饮、快递、票务行业微信小程序源码demo推荐
微信小程序的初衷是为了线下实体业服务的,必须有实体相结合才能显示小程序的魅力.个人认为微信小程序对于餐饮业和快递业这样业务比较单一的行业比较有市场,故整理推荐12款餐饮业和快递业微信小程序源码demo ...
STM32 内存管理实验
参考原文<STM32F1开发指南> 内存管理简介内存管理,是指软件运行时对计算机内存资源的分配和使用的技术.最主要的目的是如何高效.快速的分配,并且在适当的时候释放和回收内存资源.内存管 ...
pat甲级 1107. Social Clusters (30)
When register on a social network, you are always asked to specify your hobbies in order to find som ...
Codeforces Round #544 (Div. 3) Editorial C. Balanced Team
http://codeforces.com/contest/1133/problem/Ctime limit per test 2 secondsmemory limit per test 256 m ...

Spark 机器学习 ---TF-IDF

Spark 机器学习 ---TF-IDF的更多相关文章

随机推荐

热门专题