NLP（十）主题识别

原文链接：http://www.one2know.cn/nlp10/

主题识别

是发现输入文本集合中存在的主题的过程

LDA算法，即狄利克雷分布算法

from nltk.tokenize import RegexpTokenizer

from nltk.corpus import stopwords

from gensim import corpora,models

import feedparser

class IdentifyingTopicExample:

    def getDocuments(self): # 获取文档 放到documents中

        url = 'https://sports.yahoo.com/mlb/rss.xml'

        feed = feedparser.parse(url)

        self.documents = []

        for entry in feed['entries'][:5]:

            text = entry['summary']

            if 'ex' in text:

                continue

            self.documents.append(text)

            print('-- {}'.format(text))

        print('INFO: Fetching documents from {} completed'.format(url))

    def cleanDocuments(self):

        tokenizer = RegexpTokenizer(r'[a-zA-Z]+') # 想要只处理字母9

        en_stop = set(stopwords.words('english')) # 英文停用词放到en_stop中

        self.cleaned = [] # 用于存储所有被清洗且分词后的文档

        for doc in self.documents:

            lowercase_doc = doc.lower() # 字母都变小写

            words = tokenizer.tokenize(lowercase_doc) # 分词

            non_stopped_words = [i for i in words if not i in en_stop] # 过滤掉停用词

            self.cleaned.append(non_stopped_words) # cleaned 二维列表

        print('INFO: Clearning {} documents completed'.format(len(self.documents)))

    def doLDA(self):

        dictionary = corpora.Dictionary(self.cleaned) # 创建字典

        corpus = [dictionary.doc2bow(cleandoc) for cleandoc in self.cleaned]

        # 由每个清洗后的句子，以词袋形式定义corpus变量

        ldamodel = models.ldamodel.LdaModel(corpus,num_topics=2,id2word=dictionary)

        # 在corpus上创建一个模型，主题数量设为2，id2word设置词典的大小/映射情况

        print(ldamodel.print_topics(num_topics=2,num_words=4)) # 打印主题 每个主题含4个单词

    def run(self):

        self.getDocuments()

        self.cleanDocuments()

        self.doLDA()

if __name__ == "__main__":

    topicExample = IdentifyingTopicExample()

    topicExample.run()

输出：

-- MLB Network documentary shines spotlight on 1995 Mariners team that saved baseball in Seattle.

-- Marcus Semien's second big swing of the day finally gave the Oakland Athletics some breathing room in an oh-so-tight series with the AL Central-leading Twins.  Semien hit a grand slam in the eighth inning after his tying homer leading off the fifth, Chris Herrmann had a career-high four hits, and

-- It wasn't long until Cleveland took advantage of it.  Francisco Lindor drove in the go-ahead runs during a six-run seventh inning, Jose Ramirez homered twice and Carlos Santana pushed his on-base streak to 27 games as the Indians rallied to beat bumbling Kansas City 8-4 on Thursday and complete a

-- A look at what's happening around the majors Friday:

INFO: Fetching documents from https://sports.yahoo.com/mlb/rss.xml completed

INFO: Clearning 4 documents completed

[(0, '0.022*"look" + 0.022*"friday" + 0.022*"around" + 0.022*"majors"'), (1, '0.023*"leading" + 0.023*"semien" + 0.022*"inning" + 0.014*"homer"')]

NLP（十）主题识别的更多相关文章

【NLP】主题识别文档
http://www.biostatistic.net/thread-94974-1-1.html http://www.doc88.com/p-9843685205530.html http://w ...
NLP十大里程碑
NLP十大里程碑 2.1 里程碑一:1985复杂特征集复杂特征集(complex feature set)又叫做多重属性(multiple features)描写.语言学里,这种描写方法最早出现在语 ...
算法工程师进化-NLP之主题模型
1 引言主题模型是文本挖掘的重要工具,近年来在学术界和工业届都获得了非常多的关注.学术界的工作主要集中在建模层面,即提出各种各样的主题模型来适应不同的场景,因此缺乏指导主题模型在工业场景落地的资源和 ...
『深度应用』NLP命名实体识别(NER)开源实战教程
近几年来,基于神经网络的深度学习方法在计算机视觉.语音识别等领域取得了巨大成功,另外在自然语言处理领域也取得了不少进展.在NLP的关键性基础任务—命名实体识别(Named Entity Recogni ...
NLP︱LDA主题模型的应用难题、使用心得及从多元统计角度剖析
将LDA跟多元统计分析结合起来看,那么LDA中的主题就像词主成分,其把主成分-样本之间的关系说清楚了.多元学的时候聚类分为Q型聚类.R型聚类以及主成分分析.R型聚类.主成分分析针对变量,Q型聚类针对样 ...
写给程序员的机器学习入门 (十) - 对象识别 Faster-RCNN - 识别人脸位置与是否戴口罩
每次看到大数据人脸识别抓逃犯的新闻我都会感叹技术发展的太快了,国家治安水平也越来越好了
【NLP】Python实例：申报项目查重系统设计与实现
Python实例:申报项目查重系统设计与实现作者:白宁超 2017年5月18日17:51:37 摘要:关于查重系统很多人并不陌生,无论本科还是硕博毕业都不可避免涉及论文查重问题,这也对学术不正之风起 ...
【NLP】Python实例：基于文本相似度对申报项目进行查重设计
Python实例:申报项目查重系统设计与实现作者:白宁超 2017年5月18日17:51:37 摘要:关于查重系统很多人并不陌生,无论本科还是硕博毕业都不可避免涉及论文查重问题,这也对学术不正之风起 ...
自然语言处理(NLP)
苹果语音助手Siri的工作流程: 听懂思考组织语言回答这其中每一步骤涉及的流程为: 语音识别自然语言处理 - 语义分析逻辑分析 - 结合业务场景与上下文自然语言处理 - 分析结果生成自 ...

随机推荐

第二章 jsp数据交互（一）
JSP如何处理客户端的请求? 解析:通过jsp内置对象表单数据被提交到了jsp页面! 什么是JSP内置对象(jsp核心)? Java 内置对象 Java 作用域解析:jsp内置对象是web容器创 ...
Angular JS 中的内置方法之$watch
在$apply方法中存在脏检查,首先apply方法会触发evel方法,当evel方法解析成功后,会去触发digest方法,digest方法会触发watch方法. $watch(watchFn,watc ...
DesignPattern系列__01SingletonResponsibility
单一职责原则单一职责原则:一个类应该只有一个原因引起改变,即一个类应该只负责一个业务逻辑. 问题由来:类T负责t1, t2两个职责,当因为t1j对类T修改的时候,可能导致类T出现问题而影响职责t2. ...
python 处理json数据
python 处理 json数据以下是登录账号后获取的json数据,headers中注意加入cookie值需要处理的数据如下: 全部代码如下 #!/usr/bin/env python # -*- ...
从无到满意offer，你需要知道的那些事
本文首发于微信公众号:[坂本先生] 原文地址:从无到满意offer,你需要知道的那些事 1.求职软件/网站汇总软件评价推荐指数拉钩网手机端产品设计的比较好,当时在上面找到了很多的面试机会 5 ...
JavaScript的event对象
JavaScript的event对象中 event.target指代的是:触发事件的元素 event.currentTarget指代的是:事件绑定的元素 <!DOCTYPE html> & ...
java并发编程（十六）----(线程池)java线程池的使用
上节我们简单介绍了线程池,这次我们就来使用一下.Executors提供四种线程池,分别是:newCachedThreadPool,newFixedThreadPool ,newScheduledThr ...
GD32电压不足时烧写程序导致程序运行异常的解决方法
一直使用的GD32F450前段时间遇到这样一个问题,当使用J-Link供电给板子烧写程序之后,程序运行缓慢,就像运行在FLASH高速部分之外一样,但是如果使用外部供电烧写,就不会出现这个问题,而且一旦 ...
2019最新最全Java开发面试常见问题答案总结
2019最新最全Java开发面试常见问题答案总结马上准备9月份出去面试Java开发,自己学习丢西瓜捡芝麻,学了的都忘了,所以有机会自己做个学习笔记,摘录自各个博文以及总结. 1.JAVA面向对象的特 ...
node一键发布，并运行
作为一个前端开发人员如果你只会写一些业务代码,从程序员的角度来考虑已经可以了.但是从架构的角度来考虑那远远不够: 在此记录下成长中的经历: 想要达成的目的:运行一个脚本实现代码的打包,上传至服务器并部 ...

NLP（十） 主题识别

NLP（十） 主题识别的更多相关文章

随机推荐

热门专题

NLP（十）主题识别

NLP（十）主题识别的更多相关文章