LDA提取信息

文本主题模型提取

如下程序将句子主题提取后，将权重值存入dataframe.

#!/usr/bin/python

# -*- coding:utf-8 -*-

import pandas as pd

import numpy as np

import matplotlib as mpl

import math

import warnings

import jieba

from gensim import corpora, models, similarities

# 参数说明：

# doc_topics: 可用np.array(doc_topics)

# 对其进行查看，

# 它里面存储的是每个句子对应的list, list中分别是句子中部分词的标号和权重值，

# x:表示的是单个句子在dataframe的index

# num_show_topic：LdaMulticore提取的主题的个数

# col：是列名

def getlda(doc_topics, x, num_show_topic, col):

    # topic是doc_topics中list的内容变成了二阶张量的形式

    topic = np.array(doc_topics[x])

    # topic[:,1]中是某个句子中部分词的权重值

    # argsort函数返回的是数组值从小到大的索引值,即np.argsort(topic[:,1])中是list中所有的权重值由小到大排序后的索引

    # topic_id中是topic按权重值排序后生成的二维张量

    topic_id=topic[np.argsort(topic[:,1])]

    # 如果该句子主题个数不够LdaMulticore提取的个数，则对缺少的部分补0

    if topic_id.shape[0]<num_show_topic:

        settopici=set(topic_id[:,0])

        settopicadd=set([x for x in range(num_show_topic)])-settopici# 补上没出现的topic

        dfall=pd.concat([pd.DataFrame({0:list(settopicadd),1:[0 for x in range(len(settopicadd))]}),pd.DataFrame(topic_id)],axis=0)

    # 否则说明该句子中的主题个数与LdaMulticore中规定的一致，

    else:

        dfall=pd.DataFrame(topic_id)

        # print(dfall)

    # 对第一列进行排序,即按主题进行排序   共num_show_topic个主题

    dfall.sort_values(0,inplace=True)

    # 将dfall中的权重值列转化为dataframe,变为1行num_show_topic列

    df =pd.DataFrame([dfall[1].values])

    df=df.astype(np.float32)

    # 生成num_show_topic个列

    L = range(num_show_topic)

    df.columns = [col + 'lda' + str(i) for i in L]

    # 将最终生成的1行num_show_topic列的dataframe返回

    return df

def fenge(x):

    x = x.split('|')

    # print('x中不同元素共有：', len(set(x)))

    return x

df = pd.DataFrame({

                   'user_id': [113401,378358,434838,577061],

                   'taglist': [

                               '4707|70|3498|4707|2099|1832|1911',

                               '751|2207|1100|2099|1832|1911|70|2254|171',

                               '877|3242|5628|70|2684|691|70|4228|631|70',

                               '2431|3242|3242|1823|4020|3242|70|620|2168'

                               ]

                  })

# r的数据类型是series，key是df的index，values是分割‘|’后返回的list

r = df['taglist'].map(lambda x: fenge(x))

# testdata是list，每个元素也是list

testdata = list(r)

# dictionary中是将testdata中所有不同的标记tokens都取了出来放在一个list中

dictionary = corpora.Dictionary(testdata)

# corpus中存放的是testdata中每个元素在dictionary中的编号与出现次数

# corpus中的数据形式是[[(0, 1), (1, 1), (2, 1)], [(0, 1), (1, 1), (2, 1), (5, 1), (6, 1)],.......

corpus = [dictionary.doc2bow(text) for text in testdata]

# 输出tfidf是TfidfModel(num_docs=4,num_nnz=31)，其中num_docs表示的是处理了4个语句，num_nnz表示的是4个语句中共有31个不同的词

tfidf = models.TfidfModel(corpus)

# 此处计算得出语料库corpus中所有句子的tf-idf值，这儿放其他的语料库可能也行

corpus_tfidf = tfidf[corpus]

# LdaMulticore()参数解析官网链接：https://radimrehurek.com/gensim/models/ldamulticore.html

# 参数解释：corpus_tfidf:要训练的语料库

#         num_topics:指定从要训练的语料库中要提取的主题数量

#         id2word:与语料库对应的字典

#         chunksize:每次训练的词的数量

#         passes:训练中通过语料库的次数，即训练的次数

#         minimum_probability:设置阈值，低于该阈值的主题将被舍弃掉

#         workers:设置进程数，即用于并行化的工作进程的数量

#         decay:一个介于(0.5,1)之间的数字，以表示在检查每个新文档时忘记前面lambda值的百分比

# https://radimrehurek.com/gensim/models/ldamulticore.html

lda = models.LdaMulticore(corpus_tfidf, num_topics=60, id2word=dictionary,chunksize=2000,

                          passes=1, random_state=0, minimum_probability=0.005, workers=11)

# print('lda is:', lda) # lda is: LdaModel(num_terms=23, num_topics=60, decay=0.5, chunksize=2000)

# 保存模型

# lda.save('./model/' + 'lad.model')  # 留给test集合用

# doc_topics直接输出看不到内部的值

doc_topics = lda.get_document_topics(corpus_tfidf)

print(np.array(doc_topics))

# # 显示文档主题doc_topics有3种方法：

# doc_topic = [i for i in lda[corpus_tfidf]]               ##法1

# print(doc_topic)

#

# for doc_topic in lda.get_document_topics(corpus_tfidf):  ##法2

#     print(doc_topic)

# print(np.array(doc_topics))                              ##法3

item = 'taglist'   # 列名

# [print(cols) for cols in df.reset_index()['index'].apply(lambda x: getlda(doc_topics, x, 60, item))]

# df.reset_index()['index'].apply(lambda x: getlda(doc_topics, x, 60, item))

# 是series类型，其中每个values都是返回的dataframe,1行num_show_topic列

dfjoin = pd.concat([cols for cols in

                    df.reset_index()['index'].apply(lambda x: getlda(doc_topics, x, 60, item))],

                   ignore_index=True)

print(dfjoin.shape)  #(4, 60)

https://blog.csdn.net/sinat_26917383/article/details/71436563#gensimdoc2bow_209

https://radimrehurek.com/gensim/models/ldamulticore.html

https://blog.csdn.net/appleyuchi/article/details/78055371

https://blog.csdn.net/qq_23926575/article/details/79429689

https://radimrehurek.com/gensim/tut1.html#from-strings-to-vectors

http://www.pianshen.com/article/6714154086/

LDA提取信息的更多相关文章

Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
在excel单元格中提取信息
平时在excel中处理数据的时候,肯定会遇到在单元格提取信息的情况,比如在地址中提取省.市.地区等,如果数据源内容规整的话,可以直接使用left().right().mid()等函数直接提取,但是大多 ...
Excel不同工作簿之间提取信息
Sub 不同工作簿间提取信息() '用于单个字段信息的提取: Dim w As Workbook, wb1 As Workbook, wb2 As Workbook, wb3 As Workbook ...
用python库openpyxl操作excel,从源excel表中提取信息复制到目标excel表中
现代生活中,我们很难不与excel表打交道,excel表有着易学易用的优点,只是当表中数据量很大,我们又需要从其他表册中复制粘贴一些数据(比如身份证号)的时候,我们会越来越倦怠,毕竟我们不是机器,没法 ...
Jmeter- 笔记5 - 从响应数据提取信息
JSON提取器提取响应体(response body)里的信息在需要提取数据的请求下添加 JSON提取器,一个JSON提取器可以写多个json提取器路径:后置处理器 -> JSON提取器 ...
python读取excel一例-------从工资表逐行提取信息
在工作中经常要用到python操作excel,比如笔者公司中一个人事MM在发工资单的时候,需要从几百行的excel表中逐条的粘出信息,然后逐个的发送到员工的邮箱中.人事MM对此事不胜其烦,终于在某天请 ...
从PDF中提取信息----PDFMiner
今天由于某种原因需要将pdf中的文本提取出来,就去搜了下资料,发现PDFMiner是针对内容提取的,虽然最后发现pdf里面的文本全都是图片,就没整成功,不过试了个文本可复制的那种pdf文件,发现还 ...
EXCEL跨工作薄查找。提取信息
=IF(ISERROR(INDEX(zdy!$B:$B,MATCH(B15,zdy!$B:$B,0))),"不存在",INDEX(zdy!$C:$C,MATCH(B15,zdy!$ ...
【Python学习笔记四】获取html内容之后，如何提取信息：使用正则表达式筛选
在能够获取到网页内容之后,发现内容很多,那么下一步要做信息的筛选,就和之前的筛选图片那样而在python中可以通过正则表达式去筛选自己想要的数据 1.首先分析页面内容信息,确定正则表达式.例如想获取 ...

随机推荐

数据分析画图,使用原生sql查询数据
1.使用工具 https://www.hcharts.cn/ http://echarts.baidu.com/ 2.子表查询 id 创建时间内容处理者 1 2017-02-01 11:11 1 ...
SpringCloud入门(二)
ribbon实现负载均衡上文只是将服务注册到eureka上,但是consumer还是硬编码调用,前文也有提到这种硬编码方式肯定是不合理的,一来服务上线之后,IP地址肯定是变动的, 再则,采用硬编码的 ...
HTML-图片和多媒体
1.图片和多媒体 (1) 图片:img元素 src 属性:图片路径: alt 属性:图片无法显示时使用的替代文字: title:鼠标悬停时显示的文字 : <img src="图片 ...
Elastic Search安装-windows
转载自:https://blog.csdn.net/linkkb/article/details/82805145 其中稍作修改 ElasticSearch介绍 ES是一个基于Lucene的分布式全文 ...
ssm中web配置各框架的配置文件路径方式
一.在web文件中配置使用逗号隔开二.在applicationContext.xml文件中配置或引用以下是引用方式注: <import />标签要放在所有bean配置的最前面.
[七月挑选]windows上面的发音
title: windows上面的发音开始 love.vbs: CreateObject("SAPI.SpVoice").Speak "I love YOU" ...
html常见标签及用法整理
<!DOCTYPE html>  <html lang="en"> <head> <!--he ...
Apache HttpClient 读取响应乱码问题总结
Apache HttpClient 读取响应乱码问题总结 setCharacterEncoding Content-Type HttpClient 起因最近公司产品线研发人员调整,集中兵力做战 ...
Java动手动脑02
一.平方数静方法: public class SquareInt { public static void main(String[] args) { int result; for (int x = ...
bootstrap datetimepicker 位置错误
bootstrap datetimepicker 位置错误,大致问题跟其他网友描述的一样,页面自动出滚动条,然后datetimepicker飘到页脚,网上的方法都是修改place方法里面的555行左右 ...

LDA提取信息

LDA提取信息的更多相关文章

随机推荐

热门专题