python3 LDA主题模型以及TFIDF实现

import codecs  #主题模型

from gensim import corpora

from gensim.models import LdaModel

from gensim import models

from gensim.corpora import Dictionary

te = []

fp = codecs.open('input.txt','r')

for line in fp:

    line = line.split(',')

    te.append([ w  for w in line ])

print ('输入文本数量：',len(te))

dictionary = corpora.Dictionary(te)

corpus = [ dictionary.doc2bow(text) for text in te ]

tfidf = models.TfidfModel(corpus)

corpus_tfidf = tfidf[corpus]

print(list(corpus_tfidf))#输出词的tfidf

print(list(corpus))#输出文本向量空间

lda = LdaModel(corpus=corpus, id2word=dictionary, num_topics=20,passes=100)

doc_topic = [a for a in lda[corpus]]

topics_r = lda.print_topics(num_topics = 20, num_words =20)

topic_name = codecs.open('topics_result3.txt','w')

for v in topics_r:

    topic_name.write(str(v)+'\n')

fp2 = codecs.open('documents_result.txt','w')

for t in doc_topic:

    c = []

    c.append([a[1] for a in t])

    print(t)

    m = max(c[0])

    for i in range(0, len(t)):

        if m in t[i]:

            #print(t[i])

            fp2.write(str(t[i][0]) + '  ' + str(t[i][1]) + '\n')#输出模型类和概览

            break

python3 LDA主题模型以及TFIDF实现的更多相关文章

Gensim LDA主题模型实验
本文利用gensim进行LDA主题模型实验,第一部分是基于前文的wiki语料,第二部分是基于Sogou新闻语料. 1. 基于wiki语料的LDA实验上一文得到了wiki纯文本已分词语料 wiki.z ...
用scikit-learn学习LDA主题模型
在LDA模型原理篇我们总结了LDA主题模型的原理,这里我们就从应用的角度来使用scikit-learn来学习LDA主题模型.除了scikit-learn, 还有spark MLlib和gensim库 ...
机器学习入门-文本特征-使用LDA主题模型构造标签 1.LatentDirichletAllocation(LDA用于构建主题模型) 2.LDA.components(输出各个词向量的权重值)
函数说明 1.LDA(n_topics, max_iters, random_state) 用于构建LDA主题模型,将文本分成不同的主题参数说明:n_topics 表示分为多少个主题, max_i ...
[综] Latent Dirichlet Allocation(LDA)主题模型算法
多项分布 http://szjc.math168.com/book/ebookdetail.aspx?cateid=1&&sectionid=983 二项分布和多项分布 http:// ...
R语言︱LDA主题模型——最优主题数选取(topicmodels)+LDAvis可视化(lda+LDAvis)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:在自己学LDA主题模型时候,发现该模 ...
Spark：聚类算法之LDA主题模型算法
http://blog.csdn.net/pipisorry/article/details/52912179 Spark上实现LDA原理 LDA主题模型算法 [主题模型TopicModel:隐含狄利 ...
R语言︱LDA主题模型——最优主题...
R语言︱LDA主题模型——最优主题...:https://blog.csdn.net/sinat_26917383/article/details/51547298#comments
自然语言处理之LDA主题模型
1.LDA概述在机器学习领域,LDA是两个常用模型的简称:线性判别分析(Linear Discriminant Analysis)和隐含狄利克雷分布(Latent Dirichlet Alloca ...
理解 LDA 主题模型
前言 gamma函数 0 整体把握LDA 1 gamma函数 beta分布 1 beta分布 2 Beta-Binomial 共轭 3 共轭先验分布 4 从beta分布推广到Dirichlet 分布 ...

随机推荐

ABP 2.0.2 升到 2.2.1
1.选择解决方案右键管理 nuget 更新输入abp 这里只升级 abp的包点升级 2.update-database 可能需要你添加个迁移(这一步可能不需要) 3.Core 项目下面的Au ...
Django model 字段类型及选项解析---转载
model field 类型1.AutoField() 自增的IntegerField,通常不用自己设置,若没有设置主键,Django会自动添加它为主键字段,Django会自动给每张表添加一个自增的p ...
(转)利用CAS算法实现通用线程安全状态机
在多线程环境下,如果某个类是有状态的,那我们在使用前,需要保证所有该类的实例对象状态一致,否则会出现意向不到的bug.下面是通用线程安全状态机的实现方法. public class ThreadSav ...
DNS 本质
DNS 本质: 层级分布式数据库
Leetcode 存在重复元素（219,220）
219. 存在重复元素 II 给定一个整数数组和一个整数 k,判断数组中是否存在两个不同的索引 i 和 j,使得 nums [i] = nums [j],并且 i 和 j 的差的绝对值最大为 k. / ...
python3 error 机器学习错误
AttributeError: 'NoneType' object has no attribute 'sqrt' 这个错误其实是因为 plt.scatter(x[:,0],x[:,1],x[:,2] ...
Windows 7远程桌面设置
1. 开启防火墙可在”计算机管理“中,打开"服务和应用程序"-"服务",找到"Windows Firewall",双击"Wind ...
骨灰级玩家体验带你测试体验天使纪元OL折扣端
刘亦菲代言吸引了我才进入游戏的(不知道有多少人和我一样)这个游戏没有一些骨灰级玩家带,真的很费时间费钱. 天使纪元5折折扣端(点击下载),其实是一个良心老平台,苹果,安卓.H5都支持的平台,采用最 ...
类的综合运用-complex的实现
实验要求: 定义一个复数类Complex,使得下面的代码能够工作: Complex c1(3,5); //用复数3+5i初始化c1: Compex c2=4.5; //用实数4.5初 ...
ASP.NET MVC WebAPI Put和Delete请求出现405(Method not allowed)错误
解决办法: 在站点根目录下的web.config设置如下(主要参考添加项): <system.webServer> <modules> <remove name=&quo ...

python3 LDA主题模型以及TFIDF实现

python3 LDA主题模型以及TFIDF实现的更多相关文章

随机推荐

热门专题