概述

Word2vec是一款由谷歌发布开源的自然语言处理算法，其目的是把words转换成vectors，从而可以用数学的方法来分析words之间的关系。Spark其该算法进行了封装，并在mllib中实现。

整体流程是spark离线训练模型，可以是1小时1训练也可以1天1训练，根据具体业务来判断，sparkstreaming在线分析。

由于历史问题，spark还在用1.5.0，接口上和2.1还是有点区别，大概看了下文档，流程上差不多

spark离线训练

如下代码，通过word2vec训练出一个模型，并且找出“导弹”的10个近义词

    val input = sc.textFile("word2vec.txt").map(line => line.split(" ").toSeq)

    val word2vec = new Word2Vec()

    word2vec.setMinCount(1)

    word2vec.setNumPartitions(1)

    word2vec.setNumIterations(1)

    val model = word2vec.fit(input)

    val synonyms = model.findSynonyms("导弹", 10)

    for((synonym, cosineSimilarity) <- synonyms) {

      println(s"$synonym $cosineSimilarity")

    }

　　model.save(sc,"myModelPath")

参数解释

参数	默认	解释
vectorSize	100	向量的维度，一般维度不会太大，通常在100-500
learningRate	0.025	Sets initial learning rate
numPartitions	1	分区个数，设置多个可以提高计算效率，但会少量的numpartitions有利于精确度
numIterations	1	迭代次数，应该小于等于numPartitions

经过粗略的测试，适当提高numPartition可以加快word2vec的计算速度

测试结果

每次测试的结果都有点不同，大致差不多

这里说明一点，结果中第一个字段是word，第二个字段是余弦相似度，由于sparkmllib考虑到计算效率，没有用完成的余弦相似度公式，所以结果会大于1，但这并不影响相似度的判断

测试数据下载地址，数据集为搜狗语料分类中的军事篇

http://files.cnblogs.com/files/ulysses-you/word2vec.zip

sparkstreaming在线分析

这个demo用了socket接口（这样测试是最方便的..），实现了在线对word2vec模型的调用

  val model = Word2VecModel.load(ssc.sparkContext, "myModelPath")

  val lines = ssc.socketTextStream("localhost",9999)

    // Split each line into words

    val words = lines.flatMap(_.split(" "))

    // Count each word in each batch

    words.map{word =>

      val synonyms = model.findSynonyms(word,10)

      for((synonym, cosineSimilarity) <- synonyms) {

        println(s"syn => $synonym $cosineSimilarity")

      }

    }

参考资料

//numPartitions和numIterations数量的相似问题

http://stackoverflow.com/questions/37582929/how-are-number-of-iterations-and-number-of-partitions-releated-in-apache-spark-w

//官方1.5.0版本的word2vec介绍

http://spark.apache.org/docs/1.5.0/mllib-feature-extraction.html#word2vec

基于spark和sparkstreaming的word2vec的更多相关文章

基于Spark和SparkSQL的NetFlow流量的初步分析——scala语言
基于Spark和SparkSQL的NetFlow流量的初步分析--scala语言标签: NetFlow Spark SparkSQL 本文主要是介绍如何使用Spark做一些简单的NetFlow数据的 ...
基于Spark Mllib的文本分类
基于Spark Mllib的文本分类文本分类是一个典型的机器学习问题,其主要目标是通过对已有语料库文本数据训练得到分类模型,进而对新文本进行类别标签的预测.这在很多领域都有现实的应用场景,如新闻网站 ...
基于HDFS的SparkStreaming案例实战和内幕源码解密
一:Spark集群开发环境准备启动HDFS,如下图所示: 通过web端查看节点正常启动,如下图所示: 2.启动Spark集群,如下图所示: 通过web端查看集群启动正常,如下图所示: 3.启动sta ...
基于Spark的电影推荐系统（推荐系统~7）
基于Spark的电影推荐系统(推荐系统~7) 22/100 发布文章 liuge36 第四部分-推荐系统-实时推荐本模块基于第4节得到的模型,开始为用户做实时推荐,推荐用户最有可能喜爱的5部电影. ...
基于Spark的电影推荐系统（推荐系统~1）
第四部分-推荐系统-项目介绍行业背景: 快速:Apache Spark以内存计算为核心通用 :一站式解决各个问题,ADHOC SQL查询,流计算,数据挖掘,图计算完整的生态圈只要掌握Spark ...
基于spark邮件自动分类
代码放在github上:click me 一.数据说明数据集为英文语料集,一共包含20种类别的邮件,除了类别soc.religion.christian的邮件数为997以外每个类别的邮件数都是100 ...
基于Spark ALS构建商品推荐引擎
基于Spark ALS构建商品推荐引擎一般来讲,推荐引擎试图对用户与某类物品之间的联系建模,其想法是预测人们可能喜好的物品并通过探索物品之间的联系来辅助这个过程,让用户能更快速.更准确的获得所需 ...
【基于spark IM 的二次开发笔记】第一天各种配置
[基于spark IM 的二次开发笔记]第一天各种配置 http://juforg.iteye.com/blog/1870487 http://www.igniterealtime.org/down ...
大数据实时处理-基于Spark的大数据实时处理及应用技术培训
随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据的时代.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫的 ...

随机推荐

浅谈Java的开放封闭原则
写在前面最近, 接手了一个新业务,系统的架构可圈可点.但有些地方让人望而生畏,有些代码臃肿难以维护,让人不敢恭维.于是,结合了Java的开放封闭原则,对其中一部分代码进行了重构优化. 先来看下以前系 ...
python学习随笔（三）
在linux中输入密码,我们是看不到的,如果在python中直接输入是可以看的到的,执行以下程序 #!/usr/bin/env python username = raw_input("us ...
【C++】浅谈三大特性之一继承(一)
一,为什么要引入继承? 继承是一个非常自然的概念,现实世界中的许多事物也都是具有继承性的. 例如,爸爸继承爷爷的特性,儿子又继承爸爸的特性等都属于继承的范畴.下面是一个简单的汽车分类图: 在这个分类图 ...
Python之路-操作系统&网络基础
一.为何要有操作系统没有操作系统的话,计算机同样可以运行,但是程序员要了解到计算机底层各种各样的细节,而操作系统聪明地封装起来了底层这些繁杂的操作,通过向程序员开放一个个的接口,来最终使我们实现对底 ...
Mybatis基础学习(五)—缓存
一.概述 mybatis提供查询缓存,如果缓存中有数据就不用从数据库中获取,用于减轻数据压力,提高系统性能. 一级缓存是SqlSession级别的缓存.在操作数据库时需要 ...
Unity编译Android的原理解析和apk打包分析
作者介绍:张坤最近由于想在Scene的脚本组件中,调用Android的Activity的相关接口,就需要弄明白Scene和Activity的实际对应关系,并对Unity调用Android的部分原理进 ...
C#设计模式之简单工厂模式
简单工厂模式解释: 简单工厂模式(Simple Factory Pattern)属于类的创新型模式,又叫静态工厂方法模式(Static FactoryMethod Pattern) 是通过专门定义一 ...
在ASP.NET Core中使用Apworks开发数据服务：对HAL的支持
HAL,全称为Hypertext Application Language,它是一种简单的数据格式,它能以一种简单.统一的形式,在API中引入超链接特性,使得API的可发现性(discoverable ...
PHP7中我们应该学习会用的新特性
PHP7于2015年11月正式发布,本次更新可谓是PHP的重要里程碑,它将带来显著的性能改进和新特性,并对之前版本的一些特性进行改进.本文小编将和大家一起来了解探讨PHP7中的新特性. 1．标量类型 ...
Java设计模式：工厂模式
问题提出 Java的工厂模式与现实生活中的工厂的模型是很相似的.工厂是用来做什么?当然是用来生成产品.因此在Java的工厂模式的关键点就是如何描述好产品和工厂这2个角色之间的关系. 下面来仔细描述一下 ...

基于spark和sparkstreaming的word2vec

概述