doc2vec使用说明（一）gensim工具包TaggedLineDocument

gensim 是处理文本的很强大的工具包，基于python环境下：

1.gensim可以做什么？

它可以完成的任务，参加gensim 主页API中给出的介绍，链接如下：

http://radimrehurek.com/gensim/apiref.html

2.word2vec的使用

其中学习词向量的方法可利用，word2vec，具体使用我爱自然语言中介绍的很清楚，如下链接：

http://ju.outofmemory.cn/entry/80023

3.doc2vec/paragraph2vec的使用方法

学习文档向量，doc2vec（也就是官方网站API中的paragraph2vec)使用方法，中文资料较少,RaRe Machine Learning Blog英文博客讲解的比较详细,链接如下：

http://rare-technologies.com/doc2vec-tutorial/

因为要做文档向量的学习，我也写了个学习文档向量的例子，仅供参考，代码如下：

 import gensim, logging

 import os

 logging.basicConfig(format = '%(asctime)s : %(levelname)s : %(message)s', level = logging.INFO)

 sentences = gensim.models.doc2vec.TaggedLineDocument('review_pure_text.txt')

 model = gensim.models.Doc2Vec(sentences, size = 100, window = 5)

 model.save('review_pure_text_model.txt')

 print len(model.docvecs)

 out = file('review_pure_text_vector.txt', 'w')

 for idx, docvec in enumerate(model.docvecs):

     for value in docvec:

       out.write(str(value) + ' ')

     out.write('\n')

     print idx

     print docvec

 out.close()

输入文件Tweets_id_text.txt的格式就是每个doc 对应内容的分词，空格隔开，每个doc是一行

用TaggedLineDocument 实现，每个doc默认编号

博文doc2vec/paragraph2vec使用说明（二）中介绍带多个标签的文档向量训练方法。

doc2vec使用说明（一）gensim工具包TaggedLineDocument的更多相关文章

doc2vec使用说明（二）gensim工具包 LabeledSentence
欢迎交流,转载请注明出处. 本文介绍gensim工具包中,带标签(一个或者多个)的文档的doc2vec 的向量表示. 应用场景: 当每个文档不仅可以由文本信息表示,还有别的其他标签信息时,比如,在商品 ...
word2vec使用说明（google工具包）
word2vec使用说明转自:http://jacoxu.com/?p=1084. Google的word2vec官网:https://code.google.com/p/word2vec/ 下 ...
Gensim进阶教程：训练word2vec与doc2vec模型
本篇博客是Gensim的进阶教程,主要介绍用于词向量建模的word2vec模型和用于长文本向量建模的doc2vec模型在Gensim中的实现. Word2vec Word2vec并不是一个模型--它其 ...
[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型
深度学习掀开了机器学习的新篇章,目前深度学习应用于图像和语音已经产生了突破性的研究进展.深度学习一直被人们推崇为一种类似于人脑结构的人工智能算法,那为什么深度学习在语义分析领域仍然没有实质性的进展呢? ...
python3 doc2vec文本聚类实现
import sys #doc2vev import gensim import sklearn import numpy as np from gensim.models.doc2vec impor ...
models.doc2vec – Deep learning with paragraph2vec
参考: 用 Doc2Vec 得到文档/段落/句子的向量表达 https://radimrehurek.com/gensim/models/doc2vec.html Gensim Doc2vec Tut ...
NLP相关问题中文本数据特征表达初探
1. NLP问题简介 0x1:NLP问题都包括哪些内涵人们对真实世界的感知被成为感知世界,而人们用语言表达出自己的感知视为文本数据.那么反过来,NLP,或者更精确地表达为文本挖掘,则是从文本数据出发 ...
使用word2vec训练中文词向量
https://www.jianshu.com/p/87798bccee48 一.文本处理流程通常我们文本处理流程如下: 1 对文本数据进行预处理:数据预处理,包括简繁体转换,去除xml符号,将单词 ...
word2vec相关
word '\xe8\xb6\x85\xe8\x87\xaa\xe7\x84\xb6\xe7\x8e\xb0\xe8\xb1\xa1' not in vocabulary 分词后的样本格式:英雄联盟, ...

随机推荐

C++之STL一般总结
重新复习一下STL 什么是STL? STL(模板和标准模板库),实现与类型无关的算法和数据类型,需要将实现中的类型参数化,允许用户根据它的需要制定不同的类型. 一.一般介绍 STL(Standard ...
地图编辑器V1
功能:1. 拖放地图元素至地图编辑器中2. 可设置参考图3. 背景图可平铺,中央,左上角等放置4. 地图上的元素可旋转,可删除,可拖动5. 保存地图数据时同时生成XML格式的地图信息 -------- ...
创建基于Bootstrap的下拉菜单的DropDownList的JQuery插件
Bootstrap是当下流行的前端UI组件库之一.利用Bootstrap,可以很方便的构造美观.统一的页面.把设计师从具体的UI编码中解放出来. Bootstrap提供了不少的前端UI组件.带下拉 ...
HDU 5895 Mathematician QSC(矩阵乘法+循环节降幂+除法取模小技巧+快速幂)
传送门:HDU 5895 Mathematician QSC 这是一篇很好的题解,我想讲的他基本都讲了http://blog.csdn.net/queuelovestack/article/detai ...
file_get_contents模仿浏览器头(user_agent)获取数据
本篇文章是对file_get_contents模仿浏览器头(user_agent)获取数据进行了详细的分析介绍,需要的朋友参考下什么是user agentUser Agent中文名为用户代理 ...
Hibernate 和快照
8.Oracle中的数据类型 9.Oracle中的伪列 Rowid和RowNum Rowid Rownum:在内存中形成一个不断裂的自增列 --最重要的.就是Oracle分页我想要emp中的第二页数 ...
封装第三方jquery插件
需要自己编写 directives 的情况通常是当你使用了第三方的 jQuery 插件.因为插件在 AngularJS 之外对表单值进行更改,并不能即时反应到 Model 中.例如我们用得比较多的 j ...
li标签包含img的问题
我们在制作页面时,经常有可能碰到这样的设计: li 图一图一的布局代码如下: <ul> <li><img src=”pic1.jpg” />& ...
千位分隔符(js 实现)
最近被同事问到js如何实现给长数字添加千位分隔符,即 1344444 ---> 13,444,444 这是一个很常见的前端面试题.看起来简单,刚开始我都懒得写. 仔细一想,挺考逻辑的,实现方法有 ...
K910 升级Android 4.4.2可用的Google Service Framework
把手机换成了K910, 看上的是骁龙800的cpu和电子罗盘... 比V987是升级一大截了. 花了一个晚上加半个上午的时间终于搞定了GoogleServiceFramework, 试了大概四五个网上 ...

doc2vec使用说明（一）gensim工具包TaggedLineDocument

doc2vec使用说明（一）gensim工具包TaggedLineDocument的更多相关文章

随机推荐

热门专题