Spark 机器学习 ---Word2Vec

package Spark_MLlib

import org.apache.spark.ml.feature.Word2Vec

import org.apache.spark.sql.SparkSession

object 特征抽取_Word2Vec {

      val spark=SparkSession.builder().master("local").appName("Word2Vec").getOrCreate()

      import spark.implicits._

  def main(args: Array[String]): Unit = {

        val documentDF= spark.createDataFrame(Seq(

          "soyo like spark and hadoop".split(" "),

          "scala is good tool to study".split(" "),

          "but java i want to study and spark".split(" "),

           "soyo like spark and hadoop ".split(" ")

        ).map(Tuple1.apply)).toDF("text")

        val word2Vec=new Word2Vec().setInputCol("text").setOutputCol("result").setVectorSize().setMinCount()  //设置特征向量维数为5

        val word2Vec_model=word2Vec.fit(documentDF)  //训练模型

        val result=word2Vec_model.transform(documentDF) //把文档转换成特征向量

            result.show(false)

  }

}
结果：文档相同或着相似 特征向量就相同或者在特征空间中特征向量越相近
|text                                       |result                                                                                                       |
+-------------------------------------------+-------------------------------------------------------------------------------------------------------------+
|[soyo, like, spark, and, hadoop]           |[0.010919421538710596,-0.013777335733175279,0.02715198565274477,-0.010085364431142808,0.019428260042332113]  |        
|[scala, is, good, tool, to, study]         |[-0.048216115372876324,-0.00931493720660607,0.0237591746263206,0.04614267808695634,0.018560086687405903]     |
|[but, java, i, want, to, study, and, spark]|[0.025922087021172047,-0.027650322022964247,0.029493116540834308,-0.029830976389348507,-0.025802675168961287]|
|[soyo, like, spark, and, hadoop]           |[0.010919421538710596,-0.013777335733175279,0.02715198565274477,-0.010085364431142808,0.019428260042332113]  |
+-------------------------------------------+-------------------------------------------------------------------------------------------------------------+

红色的两个文档相同

Spark 机器学习 ---Word2Vec的更多相关文章

Spark机器学习8· 文本处理(spark-shell)
Spark机器学习自然语言处理(NLP,Natural Language Processing) 提取特征建模机器学习 TF-IDF(词频 term frequency–逆向文件频率 inver ...
Spark机器学习API之特征处理（一）
Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFram ...
Spark机器学习· 实时机器学习
Spark机器学习 1 在线学习模型随着接收的新消息,不断更新自己:而不是像离线训练一次次重新训练. 2 Spark Streaming 离散化流(DStream) 输入源:Akka actors. ...
Spark机器学习 Day2 快速理解机器学习
Spark机器学习 Day2 快速理解机器学习有两个问题: 机器学习到底是什么. 大数据机器学习到底是什么. 机器学习到底是什么人正常思维的过程是根据历史经验得出一定的规律,然后在当前情况下根据这 ...
Spark机器学习 Day1 机器学习概述
Spark机器学习 Day1 机器学习概述今天主要讨论个问题:Spark机器学习的本质是什么,其内部构成到底是什么. 简单来说,机器学习是数据+算法. 数据在Spark中做机器学习,肯定有数据来源 ...
Spark机器学习笔记一
Spark机器学习库现支持两种接口的API:RDD-based和DataFrame-based,Spark官方网站上说,RDD-based APIs在2.0后进入维护模式,主要的机器学习API是spa ...
Spark机器学习之协同过滤算法
Spark机器学习之协同过滤算法一).协同过滤 1.1 概念协同过滤是一种借助"集体计算"的途径.它利用大量已有的用户偏好来估计用户对其未接触过的物品的喜好程度.其内在思想是相 ...
2019-1-18 Spark 机器学习
2019-1-18 Spark 机器学习机器学习模MLib板预测 //有视频后续会补充 1547822490122.jpg 1547822525716.jpg 1547822330358.jp ...
Spark机器学习解析下集
上次我们讲过<Spark机器学习(上)>,本文是Spark机器学习的下部分,请点击回顾上部分,再更好地理解本文. 1.机器学习的常见算法常见的机器学习算法有:l 构造条件概率:回归分 ...

随机推荐

Oracle XE WM_CONCAT undifine
用docker 跑了个oracle XE 报错没有WM_CONCAT 下载三个sql文件然后按顺序执行后可以正常使用一:下载三个文件解压到 oracle 目录下面 (要能找到,注意权限要o ...
python json格式和csv文件转换
python json格式和csv文件转换上代码 import csv import json ''' json格式示例 [{ "firstName":"Bill&qu ...
Chrome升级后打开新的标签页变样了……
最近更新Chrome后,打开新的标签页完全变样了,让人不知所措,特别是没有了那个“最近关闭标签页”按钮,这让我抓狂…… PS:Chrome版本号为:29.0.1547.76 m PPS:最新版已无法修 ...
原来 JS 是这样的 - 关于 this
引子习惯了别的语言的思维习惯而不专门了解 JavaScript 的语言特性的话,难免踩到一些坑. 上一篇文章中简单总结了关于提升, 严格模式, 作用域和闭包的几个常见问题,当然这仅仅是了解 ...
putchar()和getchar()使用解析
1.putchar() 作用:输出一个字符格式:putchar(c),c为输出参数 #include <stdio.h> int main() { char a1='A',b1='B'; ...
C++ volatile关键字（转）
文章来源: http://hedengcheng.com/?p=725 https://www.cnblogs.com/god-of-death/p/7852394.html 1.基本概念 volat ...
配置JSTL
1.去到官网下载好 4个包 http://tomcat.apache.org/download-taglibs.cgi 2.然后拷贝到 lib目录下 3.导入进去后面的 C 代替了导入包的名字 4 ...
Pycharm Anaconda 安装dlib
由于采用python3.7安装会出现各种问题,两种解决方法. 1)安装Cmake boost等(不推荐,麻烦且不容易成功). 2)安装Anaconda,创建一个python3.6的环境. 这里使用第二 ...
illuminate/routing 源码分析之注册路由
我们知道,在 Laravel 世界里,外界传进来一个 Request 时,会被 Kernel 处理并返回给外界一个 Response.Kernel 在处理 Request 时,会调用 illumina ...
textarea 高度调整
textarea 高度调整通过 rows 属性调整高度

Spark 机器学习 ---Word2Vec

Spark 机器学习 ---Word2Vec的更多相关文章

随机推荐

热门专题