Spark Word2Vec算法代码实现

 1 import com.hankcs.hanlp.tokenizer.NLPTokenizer

 import org.apache.hadoop.io.{LongWritable, Text}

 import org.apache.hadoop.mapred.TextInputFormat

 import org.apache.log4j.{Level, Logger}

 import org.apache.spark.ml.feature.Word2Vec

 import org.apache.spark.sql.SparkSession

 /**

   * Created by zhen on 2018/11/20.

   */

 object Word2Vec {

   Logger.getLogger("org").setLevel(Level.WARN) // 设置日志级别

   def main(args: Array[String]) {

     val spark = SparkSession.builder()

       .appName("Word2Vec")

       .master("local[2]")

       .getOrCreate()

     val sc = spark.sparkContext

     val trainDataPath = "E://BDS/newsparkml/src/news_tensite_xml.smarty.dat"

     // 数据预处理

     val rdd = sc.hadoopFile(trainDataPath, classOf[TextInputFormat], classOf[LongWritable], classOf[Text])

       .map(pair => new String(pair._2.getBytes, 0, pair._2.getLength, "GBK"))

       .filter(row => row.contains("content"))

       .map(row =>

         if(row.contains("content")){

           row.substring(row.indexOf(">")+1, row.lastIndexOf("<")).trim()

         }else{

           null

         }

       )

       .filter(row => !row.equals(null))

     // 分词

     val segmentResult = rdd.mapPartitions( row =>{

       row.map(word => {

         val nlpList = NLPTokenizer.segment(word)

         import scala.collection.JavaConverters._

         nlpList.asScala.map(term => {

           term.word.trim()

         })

         .filter(word => word.length>1) //过滤掉长度小于2的词

         .mkString(" ")

       })

     })

     val regex = """^\d+$""".r

     //val size = 5

     segmentResult.saveAsTextFile("E:/BDS/newsparkml/src/分词结果")

     // 加载分词训练数据

     val input = sc.textFile("E:/BDS/newsparkml/src/分词结果")

       //.filter(row => row.split(" ").length>=size)

       .filter(row => regex.findFirstMatchIn(row) == None) //过滤掉无用的数字关键词

       .map(row => {

         val split = row.split(" ")

         val array : Array[String] = new Array[String](split.length)

         for(i<- 0 until split.length){

           array(i) = split(i)

         }

         new Tuple1(array)

       })

     val dataFrame = spark.sqlContext.createDataFrame(input).toDF("text")

     dataFrame.foreach(println(_))

     //创建Word2Vec对象

     val word2Vec = new Word2Vec()

       .setInputCol("text")

       .setOutputCol("result")

       .setVectorSize(50)

       .setNumPartitions(64)

     //训练模型

     val model = word2Vec.fit(dataFrame)

     //缓存模型

     model.save("E:/BDS/newsparkml/src/Word2VecModel")

     //保存词向量数据

     /*val vector = model.getVectors.map{

       case (word, vector) => Seq(word, vector)

     }

     vector.toJavaRDD.saveAsTextFile("E:/BDS/newsparkml/src/Word2VecData")*/

     //预测

     val like = model.findSynonyms("中国", 10)

     like.foreach(println(_))

     /*for((item, literacy) <- like){

       print(s"$item $literacy")

     }*/

   }

 }

分词结果：

分词结果部分数据：

模型：

结果：

分析：

　　预测结果与训练集数据紧密相关，Word2Vec会根据训练集中各词之间的紧密程度设置不同的相识度，因此，要想获得较好的预测结果，需要有合适的训练集！

Spark Word2Vec算法代码实现的更多相关文章

LaTeX 算法代码排版 --latex2e范例总结
LaTeX 写作: 算法代码排版 --latex2e范例总结 latex2e 宏包的使用范例: \usepackage[ruled]{algorithm2e} ...
KMP算法代码
以下是本人根据上一篇博客随笔http://www.cnblogs.com/jiayouwyhit/p/3251832.html,所写的KMP算法代码(暂未优化),个人认为在基于上一篇博客的基础上,代码 ...
算法代码[置顶] 机器学习实战之KNN算法详解
改章节笔者在深圳喝咖啡的时候突然想到的...之前就有想写几篇关于算法代码的文章,所以回家到以后就奋笔疾书的写出来发表了前一段时间介绍了Kmeans聚类,而KNN这个算法刚好是聚类以后经常使用的匹配技 ...
经常使用MD5算法代码
经常使用的MD5算法代码日期: 2014年8月4日作者: 铁锚 MD5,全称为 Message Digest Algorithm 5(消息摘要算法第五版).详情请參考维基百科:MD5 MD5加密后 ...
带你找到五一最省的旅游路线【dijkstra算法代码实现】
算法推导过程参见[dijkstra算法推导详解] 此文为[dijkstra算法代码实现] https://www.cnblogs.com/Halburt/p/10767389.html package ...
LDPC译码算法代码概述
程序说明 V0.0 2015/1/24 LDPC译码算法代码概述概述本文介绍了包括LDPC_Simulation.m, ldpcdecoderbp1.m,ldpcdecoderminsum ...
『HTML5实现人工智能』小游戏《井字棋》发布，据说IQ上200才能赢【算法&代码讲解+资源打包下载】
一,什么是TicTacToe(井字棋) 本游戏为在下用lufylegend开发的第二款小游戏.此游戏是大家想必大家小时候都玩过,因为玩它很简单,只需要一张草稿纸和一只笔就能开始游戏,所以广受儿童欢迎. ...
【图像处理】Haar Adaboost 检测自定义目标（视频车辆检测算法代码）
阅读须知本博客涉及到的资源: 正样本:http://download.csdn.net/detail/zhuangxiaobin/7326197 负样本:http://download.csdn.n ...
编程算法 - 高速排序算法代码(C)
高速排序算法代码(C) 本文地址: http://blog.csdn.net/caroline_wendy 经典的高速排序算法, 作为一个编程者, 不论什么时候都要完整的手写. 代码: /* * m ...

随机推荐

PHP字母数字验证码和中文验证码
1:字母数字组合的验证码 HTML代码: 验证码:<input type="text" name="code"> <img onclick=& ...
UIAutomatorViewer增加xpath查看
原来的UIAutomatorViewer是没有xpath查看路径的,下载如下jar包: https://pan.baidu.com/s/1jpr6m0OOce7CtnDE_lIJ9A 密码:cja0 ...
xshell 会话管理器快捷键
有没有发现xshell6关闭左边的会话管理器以后,打开就比较麻烦那么可以自定义一个快捷键来打开: 然后输入一个快捷键类型选择菜单-->然后找会话管理器完事儿也可以自定义其他快捷键.自己 ...
详解C#的协变和逆变
一.使用协变(Covariance)和逆变(Contravariance )能够实现数组之间.委托实例和方法之间.泛型委托实例之间.泛型接口的变量和泛型类型的对象之间.泛型接口的变量之间的隐式转换:使 ...
leetcode — zigzag-conversion
/** * Source : https://oj.leetcode.com/problems/zigzag-conversion/ * * Created by lverpeng on 2017/6 ...
php生成mysql数据字典
<?php /** * 生成mysql数据字典 */ // 配置数据库 $database = array(); $database['DB_HOST'] = '127.0.0.1'; $dat ...
vue 使用mint-ui实现上拉加载和下拉刷新
解决了官网中下拉刷新存在的问题 <template> <div class="tmpl"> <nav-bar title="商品列表&quo ...
Ado.net和EF的区别
ado.net EF作为微软的一个ORM框架,通过实体.关系型数据库表之间的映射,使开发人员可以通过操作表实体而间接的操作数据库,大大的提高了开发效率.这样一来,.net平台下,我们与底层数据库的交互 ...
MVC架构介绍——自运行任务
实例产品基于asp.net mvc 5.0框架,源码下载地址:http://www.jinhusns.com/Products/Download 通过自运行任务来调度及执行程序中需要定时触发或处理的一 ...
IDEA内置Git管理
总结: 1.要想用git管理项目,先要将本地项目与git关联,才能进行commit.push.pull等操作: 2.将本地项目于git关联后,本地仓库的地址默认就是项目地址: ...

Spark Word2Vec算法代码实现

Spark Word2Vec算法代码实现的更多相关文章

随机推荐

热门专题