1、word2vec

耳熟能详的NLP向量化模型。 
Paper: https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf

Java: http://deeplearning4j.org/word2vec

C++: https://github.com/jdeng/word2vec

Python:

https://radimrehurek.com/gensim/models/word2vec.html 
https://github.com/danielfrg/word2vec

2、doc2vec

Paper: https://cs.stanford.edu/~quocle/paragraph_vector.pdf

Python: https://radimrehurek.com/gensim/models/doc2vec.html

word2vec模型对词向量进行平均处理,我们仍然忽略了单词之间的排列顺序对情感分析的影响。即上述的word2vec只是基于词的维度进行”语义分析”的,而并不具有上下文的”语义分析”能力。

  作为一个处理可变长度文本的总结性方法,Quoc Le 和 Tomas Mikolov 提出了 Doc2Vec方法。除了增加一个段落向量以外,这个方法几乎等同于 Word2Vec。和 Word2Vec 一样,该模型也存在两种方法:Distributed Memory(DM) 和 Distributed Bag of Words(DBOW)。DM 试图在给定上下文和段落向量的情况下预测单词的概率。在一个句子或者文档的训练过程中,段落 ID 保持不变,共享着同一个段落向量。DBOW 则在仅给定段落向量的情况下预测段落中一组随机单词的概率。 
(参考:Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型 )

3、tweet2vec

Paper: https://arxiv.org/abs/1605.03481

Python: https://github.com/bdhingra/tweet2vec

一些社交文本中的语言结构跟书面语大不相同,所以作者别出心裁的特意做了一个基于字符组合的模型,其可以基于整个微博环境下复杂、非正常语言的字符串中学习到一种向量化的表达方式。

4、batter-pitcher-2vec

Python: https://github.com/airalcorn2/batter-pitcher-2vec

5、illustration-2vec

Python: https://github.com/rezoo/illustration2vec

6、lda2vec

Paper: https://arxiv.org/pdf/1605.02019v1.pdf

Slideshare: http://www.slideshare.net/ChristopherMoody3/word2vec-lda-and-introducing-a-new-hybrid-algorithm-lda2vec-57135994

Python: https://github.com/cemoody/lda2vec

将LDA与word2vec相结合,LDA是我比较在意的研究方向,这个模型很早提出,不过应用地倒是不多。

 
lda2vec the topics can be ‘supervised’ and forced to predict another target.

7、sentence2vec

Python: https://github.com/klb3713/sentence2vec

8、wiki2vec

Java/Scala: https://github.com/idio/wiki2vec

9、topicvec

Paper: http://bigml.cs.tsinghua.edu.cn/~jun/topic-embedding.pdf

Python: https://github.com/askerlee/topicvec

10、entity2vec

Python: https://github.com/ot/entity2vec

Paper: http://www.di.unipi.it/~ottavian/files/wsdm15_fel.pdf

11、str2vec

Python: https://github.com/pengli09/str2vec

12、node2vec

Paper: https://arxiv.org/abs/1607.00653

Page: https://snap.stanford.edu/node2vec/

Python: https://github.com/aditya-grover/node2vec

可见:笔记︱基于网络节点的node2vec、论文、算法python实现

13、item2vec

Paper: https://arxiv.org/abs/1603.04259

14、author2vec

Paper: https://www.microsoft.com/en-us/research/publication/author2vec-learning-author-representations-by-combining-content-and-link-information/

15、playlist-to-vec

Python: https://github.com/mattdennewitz/playlist-to-vec

16、sense2vec

Paper: https://arxiv.org/abs/1511.06388

17、med2vec

Paper: https://arxiv.org/abs/1602.05568

Python: https://github.com/mp2893/med2vec

SCODE Word Embeddings using Substitute Words

Python: https://github.com/ai-ku/wvec

18、game2vec

Python: https://github.com/warchildmd/game2vec

19、paper2vec

Paper: https://arxiv.org/pdf/1703.06587.pdf

转自:http://blog.csdn.net/sinat_26917383/article/details/69666596

 

NLP+2vec︱认识多种多样的2vec向量化模型的更多相关文章

  1. NLP学习(2)----文本分类模型

    实战:https://github.com/jiangxinyang227/NLP-Project 一.简介: 1.传统的文本分类方法:[人工特征工程+浅层分类模型] (1)文本预处理: ①(中文) ...

  2. 自然语言处理NLP学习笔记一:概念与模型初探

    前言 先来看一些demo,来一些直观的了解. 自然语言处理: 可以做中文分词,词性分析,文本摘要等,为后面的知识图谱做准备. http://xiaosi.trs.cn/demo/rs/demo 知识图 ...

  3. 【NLP】揭秘马尔可夫模型神秘面纱系列文章(一)

    初识马尔可夫和马尔可夫链 作者:白宁超 2016年7月10日20:34:20 摘要:最早接触马尔可夫模型的定义源于吴军先生<数学之美>一书,起初觉得深奥难懂且无什么用场.直到学习自然语言处 ...

  4. 【NLP】揭秘马尔可夫模型神秘面纱系列文章(二)

    马尔可夫模型与隐马尔可夫模型 作者:白宁超 2016年7月11日15:31:11 摘要:最早接触马尔可夫模型的定义源于吴军先生<数学之美>一书,起初觉得深奥难懂且无什么用场.直到学习自然语 ...

  5. 【NLP】揭秘马尔可夫模型神秘面纱系列文章(三)

    向前算法解决隐马尔可夫模型似然度问题 作者:白宁超 2016年7月11日22:54:57 摘要:最早接触马尔可夫模型的定义源于吴军先生<数学之美>一书,起初觉得深奥难懂且无什么用场.直到学 ...

  6. 【NLP】揭秘马尔可夫模型神秘面纱系列文章(四)

    维特比算法解决隐马尔可夫模型解码问题(中文句法标注) 作者:白宁超 2016年7月12日14:08:28 摘要:最早接触马尔可夫模型的定义源于吴军先生<数学之美>一书,起初觉得深奥难懂且无 ...

  7. 【NLP】揭秘马尔可夫模型神秘面纱系列文章(五)

    向前向后算法解决隐马尔可夫模型机器学习问题 作者:白宁超 2016年7月12日14:28:10 摘要:最早接触马尔可夫模型的定义源于吴军先生<数学之美>一书,起初觉得深奥难懂且无什么用场. ...

  8. NLP直播-1 词向量与ELMo模型

    翻车2次,试水2次,今天在B站终于成功直播了. 人气11万. 主要讲了语言模型.词向量的训练.ELMo模型(深度.双向的LSTM模型) 预训练与词向量 词向量的常见训练方法 深度学习与层次表示 LST ...

  9. TF-IDF与主题模型 - NLP学习(3-2)

    分词(Tokenization) - NLP学习(1) N-grams模型.停顿词(stopwords)和标准化处理 - NLP学习(2) 文本向量化及词袋模型 - NLP学习(3-1) 在上一篇博文 ...

随机推荐

  1. Result结果类型详解

    配置Result 在 struts.xml 文件中,<result> 元素用于配置 Result 逻辑视图与物理视图之间的映射关系,它有两个可选属性 name 和 type.其中,name ...

  2. Python-Jsonpath简单入门

    原文来自:http://goessner.net/articles/JsonPath/   JSONPath - 是xpath在json的应用. xml最大的优点就有大量的工具可以分析,转换,和选择性 ...

  3. css3之属性选择器

    总体来看一下都有哪些选择器 1.属性选择器  1)[att*=val] 2)[att^=val] 3)[att$=val] 2.结构伪类选择器 3.UI伪类选择器 其中E:read-only伪类选择器 ...

  4. MyEclipse6.5安装SVN插件方法

    MyEclipse6.5安装SVN插件,掌握了几种方法,本节就像大家介绍一下MyEclipse6.5安装SVN插件的三种方法,看完本文你肯定有不少收获,希望本文能教会你更多东西. 一.安装方法: My ...

  5. 使用Maven编译运行Storm入门代码(Storm starter)(转)

    Storm 官方提供了入门代码(Storm starter),即 Storm安装教程 中所运行的实例(storm-starter-topologies-0.9.6.jar),该入门代码位于 /usr/ ...

  6. Puppet master-agent模型搭建

    Puppet master-agent模型工作过程: 基于ssl xmlrpc进行通信,端口8140/tcp agent:默认每隔30分钟向master发送node name和facts,并请求cat ...

  7. 阿里云应用高可用服务 AHAS 流控降级实现 SQL 自动防护功能

    在影响系统稳定性的各种因素中,慢 SQL 是相对比较致命的,可能会导致 CPU.LOAD 异常.系统资源耗尽.线上生产环境出现慢 SQL 往往有很多原因: 硬件问题.如网络速度慢,内存不足,I/O 吞 ...

  8. bootstrap--栅格系统布局

    栅格布局使用例子: <!DOCTYPE html> <html lang="zh-CN"> <head> <meta charset=&q ...

  9. 惊!VUE居然数据不能驱动视图?$set详细教程

    众所周知.VUE最大的优点就是数据驱动视图.当数据发生改变时,会监听到变化,后渲染到页面上.那么为什么当我们在修改data中声明的数组或对象时.VUE并没有监听到变化呢?这个我也不知道.我们可以后续再 ...

  10. 【笔记】Python3导入包规则

    例如:这里给出了一种可能的包结构(在分层的文件系统中): sound/ 顶层包 __init__.py 初始化 sound 包 formats/ 文件格式转换子包 __init__.py wavrea ...