doc2vec使用说明（二）gensim工具包 LabeledSentence

欢迎交流，转载请注明出处。

本文介绍gensim工具包中，带标签（一个或者多个）的文档的doc2vec 的向量表示。

应用场景：当每个文档不仅可以由文本信息表示，还有别的其他标签信息时，比如，在商品推荐中，将每个商品看成是一个文档，我们想学习商品向量表示时，可以只使用商品的描述信息来学习商品的向量表示，但有时：商品类别等信息我们也想将其考虑进去，最简单的方法是：当用文本信息学习到商品向量后，添加一维商品的类别信息，但只用一维来表示商品类别信息的有效性差。gensim 工具包的doc2vec提供了更加合理的方法，将商品标签（如类别）加入到商品向量的训练中，即gensim 中的LabeledSentence方法

LabeledSentence的输入文件格式：每一行为：<labels, words>，其中labels 可以有多个，用tab 键分隔，words 用空格键分隔，eg:<id　　category　　I like my cat demon>.

输出为词典vocabuary 中每个词的向量表示，这样就可以将商品labels：id，类别的向量拼接用作商品的向量表示。

写了个例子，仅供参考（训练一定要加 min_count=1，否则词典不全，这个小问题卡了一天 Doc2Vec(sentences, size = 100, window = 5, min_count=1)）

注意：下面的例子是gensim更新之前的用法，gensim更新之后，没有了labels 的属性，换为tags, 且目标向量的表示也由vacb转到docvecs 中。更新后gensim 的用法见例子2.

例子1：gensim 更新前。

 # -*- coding: UTF-8 -*-

import gensim, logging

import os

from gensim.models.doc2vec import Doc2Vec,LabeledSentence

from gensim.models import Doc2Vec

import gensim.models.doc2vec

asin=set()

category=set()

class LabeledLineSentence(object):

    def __init__(self, filename=object):

        self.filename =filename

    def __iter__(self):

        with open(self.filename,'r') as infile:

            data=infile.readlines();

           # print "length: ", len(data)

        for uid,line in enumerate(data):

            asin.add(line.split("\t")[0])

            category.add(line.split("\t")[1])

            yield LabeledSentence(words=line.split("\t")[2].split(), labels=[line.split("\t")[0],line.split("\t")[1]])

print 'success'

logging.basicConfig(format = '%(asctime)s : %(levelname)s : %(message)s', level = logging.INFO)

sentences =LabeledLineSentence('product_bpr_train.txt')

model = Doc2Vec(sentences, size = 100, window = 5, min_count=1)

model.save('product_bpr_model.txt')

print  'success1'

#for uid,line in enumerate(model.vocab):

#    print line

print len(model.vocab)

outid = file('product_bpr_id_vector.txt', 'w')

outcate = file('product_bpr_cate_vector.txt', 'w')

for idx, line in enumerate(model.vocab):

    if line in asin :

        outid.write(line +'\t')

        for idx,lv in enumerate(model[line]):

            outid.write(str(lv)+" ")

        outid.write('\n')

    if line in category:

        outcate.write(line + '\t')

        for idx,lv in enumerate(model[line]):

            outcate.write(str(lv)+" ")

        outcate.write('\n')

outid.close()

outcate.close()

例子2：gensim 更新后

 # -*- coding: UTF-8 -*-

import gensim, logging

import os

from gensim.models.doc2vec import Doc2Vec,LabeledSentence

from gensim.models import Doc2Vec

import gensim.models.doc2vec

asin=set()

category=set()

class LabeledLineSentence(object):

    def __init__(self, filename=object):

        self.filename =filename

    def __iter__(self):

        with open(self.filename,'r') as infile:

            data=infile.readlines();

            print "length: ", len(data)

        for uid,line in enumerate(data):

            print "line:",line

            asin.add(line.split("\t")[0])

            print "asin: ",asin

            category.add(line.split("\t")[1])

            yield LabeledSentence(words=line.split("\t")[2].split(" "), tags=[line.split("\t")[0], line.split("\t")[1]])

print 'success'

logging.basicConfig(format = '%(asctime)s : %(levelname)s : %(message)s', level = logging.INFO)

sentences =LabeledLineSentence('product_bpr_test_train.txt')

model = Doc2Vec(sentences, size =50, window = 5, min_count=1)

model.save('product_bpr_model50.txt')

print  'success1'

print "doc2vecs length:", len(model.docvecs)

outid = file('product_bpr_id_vector50.txt', 'w')

outcate = file('product_bpr_cate_vector50.txt', 'w')

for id in asin:

    outid.write(id+"\t")

    for idx,lv in enumerate(model.docvecs[id]):

        outid.write(str(lv)+" ")

    outid.write("\n")

for cate in category:

    outcate.write(cate + '\t')

    for idx,lv in enumerate(model.docvecs[cate]):

        outcate.write(str(lv)+" ")

    outcate.write('\n')

outid.close()

outcate.close()

参考：

http://rare-technologies.com/doc2vec-tutorial/

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb

http://radimrehurek.com/gensim/models/doc2vec.html#blog

doc2vec使用说明（二）gensim工具包 LabeledSentence的更多相关文章

doc2vec使用说明（一）gensim工具包TaggedLineDocument
gensim 是处理文本的很强大的工具包,基于python环境下: 1.gensim可以做什么? 它可以完成的任务,参加gensim 主页API中给出的介绍,链接如下: http://radimreh ...
word2vec使用说明（google工具包）
word2vec使用说明转自:http://jacoxu.com/?p=1084. Google的word2vec官网:https://code.google.com/p/word2vec/ 下 ...
UE4.5.0的Kinect插件(Plugin)---插件使用说明<二>
声明:所有权利保留. 转载必须说明出处:http://blog.csdn.net/cartzhang/article/details/43563959 一.起因: 写了个UE4的Kinect的插件,结 ...
Neo4j 的使用说明(二)
上一篇: https://www.cnblogs.com/infoo/p/9840965.html 阅读量挺多的,因此继续写一下(二) 在上一篇说到:(版本依然基于V3.4.9) 如果为了方便更改d ...
Hawk 数据抓取工具使用说明(二)
1. 调试模式和执行模式 1.1.调试模式系统能够通过拖拽构造工作流.在编辑流的过程中,处于调试模式,为了保证快速地计算和显示当前结果(只显示前20个数据,可在调试的采样量中修改),此时,所有执行器 ...
Gensim进阶教程：训练word2vec与doc2vec模型
本篇博客是Gensim的进阶教程,主要介绍用于词向量建模的word2vec模型和用于长文本向量建模的doc2vec模型在Gensim中的实现. Word2vec Word2vec并不是一个模型--它其 ...
[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型
深度学习掀开了机器学习的新篇章,目前深度学习应用于图像和语音已经产生了突破性的研究进展.深度学习一直被人们推崇为一种类似于人脑结构的人工智能算法,那为什么深度学习在语义分析领域仍然没有实质性的进展呢? ...
models.doc2vec – Deep learning with paragraph2vec
参考: 用 Doc2Vec 得到文档/段落/句子的向量表达 https://radimrehurek.com/gensim/models/doc2vec.html Gensim Doc2vec Tut ...
基于Doc2vec训练句子向量
目录一.Doc2vec原理二.代码实现三.总结一.Doc2vec原理前文总结了Word2vec训练词向量的细节,讲解了一个词是如何通过word2vec模型训练出唯一的向量来表示的.那接着 ...

随机推荐

Vi （Unix及Linux系统下标准的编辑器）VIM （Unix及类Unix系统文本编辑器）
Vi是Unix及Linux系统下标准的编辑器.学会它后,您将在Linux的世界里畅行无阻.基本上vi可以分为三种状态,分别是命令模式.插入模式,和底行模式. vi编辑器是所有Unix及Linux系统下 ...
Sharepoint学习笔记—习题系列--70-576习题解析 -(Q124-Q127)
Question 124 You are designing a SharePoint 2010 application. You need to design a single feature t ...
IOS开发之Bug--View是懒加载导致出误以为是UI加载的bug
虽然分类为bug,但也算的上是一个问题,一个很简单的问题.先来看看问题的重现,就写了简单的Demo验证效果: 问题:点击ViewController跳转到TwoViewController,发现会延迟 ...
用户故事驱动的敏捷开发 – 2. 创建backlog
本系列的第一篇[用户故事驱动的敏捷开发 – 1. 规划篇]跟大家分享了如何使用用户故事来帮助团队创建需求的过程,在这一篇中,我们来看看如何使用这些用户故事和功能点形成产品backlog.产品backl ...
#研发解决方案介绍#Tracing（鹰眼）
郑昀最后更新于2014/11/12 关键词:GoogleDapper.分布式跟踪.鹰眼.Tracing.HBase.HDFS. 本文档适用人员:研发分布式系统为什么需要 Tracing? ...
//build->//learn->//publish
在今年的Build大会上,微软发布了Windows Phone 8.1,以及universal Windows apps开发策略.在接下来的两个月中,会有两个全球性的活动举办,分别是//learn和/ ...
Write on ……… failed: 112(failed to retrieve text for this error. Reason: 15105)
早上检查数据库的备份邮件时,发现一台Microsoft SQL Server 2008 R2 (SP2)数据库的Maintenance Report有错误在SSMS里面执行Exec YourSQLD ...
开源一个windows下的定时任务框架，简单粗暴好用。
这里是你想要的功能: 支持插件,将你要执行的任务编译成程序集放到框架的根目录下,再进行简单的配置就行了. 支持Corn表达式.想让任务在什么时候执行就在什么时候执行. 支持安装成windows ser ...
[AJAX]ajax在兼容模式下失效解决办法
使用jQuery,用ajax实现局部刷新功能,在火狐,360急速浏览器高速模式下,ie8,9都能正常运行,但切换到兼容模式下无效,解决办法有两种关闭浏览器兼容性视图,二是引入json2.js文件这里 ...
我的第一篇博客/markdown
开通了博客园使用markdowm Q:为什么考虑使用markdowm而非别的编辑器? 首先,markdowm的优点就不说了, 我是通过http://sspai.com/25137了解了markdow ...

doc2vec使用说明（二）gensim工具包 LabeledSentence

doc2vec使用说明（二）gensim工具包 LabeledSentence的更多相关文章

随机推荐

热门专题