NLP（十）主题识别

原文链接：http://www.one2know.cn/nlp10/

主题识别

是发现输入文本集合中存在的主题的过程

LDA算法，即狄利克雷分布算法

from nltk.tokenize import RegexpTokenizer

from nltk.corpus import stopwords

from gensim import corpora,models

import feedparser

class IdentifyingTopicExample:

    def getDocuments(self): # 获取文档 放到documents中

        url = 'https://sports.yahoo.com/mlb/rss.xml'

        feed = feedparser.parse(url)

        self.documents = []

        for entry in feed['entries'][:5]:

            text = entry['summary']

            if 'ex' in text:

                continue

            self.documents.append(text)

            print('-- {}'.format(text))

        print('INFO: Fetching documents from {} completed'.format(url))

    def cleanDocuments(self):

        tokenizer = RegexpTokenizer(r'[a-zA-Z]+') # 想要只处理字母9

        en_stop = set(stopwords.words('english')) # 英文停用词放到en_stop中

        self.cleaned = [] # 用于存储所有被清洗且分词后的文档

        for doc in self.documents:

            lowercase_doc = doc.lower() # 字母都变小写

            words = tokenizer.tokenize(lowercase_doc) # 分词

            non_stopped_words = [i for i in words if not i in en_stop] # 过滤掉停用词

            self.cleaned.append(non_stopped_words) # cleaned 二维列表

        print('INFO: Clearning {} documents completed'.format(len(self.documents)))

    def doLDA(self):

        dictionary = corpora.Dictionary(self.cleaned) # 创建字典

        corpus = [dictionary.doc2bow(cleandoc) for cleandoc in self.cleaned]

        # 由每个清洗后的句子，以词袋形式定义corpus变量

        ldamodel = models.ldamodel.LdaModel(corpus,num_topics=2,id2word=dictionary)

        # 在corpus上创建一个模型，主题数量设为2，id2word设置词典的大小/映射情况

        print(ldamodel.print_topics(num_topics=2,num_words=4)) # 打印主题 每个主题含4个单词

    def run(self):

        self.getDocuments()

        self.cleanDocuments()

        self.doLDA()

if __name__ == "__main__":

    topicExample = IdentifyingTopicExample()

    topicExample.run()

输出：

-- MLB Network documentary shines spotlight on 1995 Mariners team that saved baseball in Seattle.

-- Marcus Semien's second big swing of the day finally gave the Oakland Athletics some breathing room in an oh-so-tight series with the AL Central-leading Twins.  Semien hit a grand slam in the eighth inning after his tying homer leading off the fifth, Chris Herrmann had a career-high four hits, and

-- It wasn't long until Cleveland took advantage of it.  Francisco Lindor drove in the go-ahead runs during a six-run seventh inning, Jose Ramirez homered twice and Carlos Santana pushed his on-base streak to 27 games as the Indians rallied to beat bumbling Kansas City 8-4 on Thursday and complete a

-- A look at what's happening around the majors Friday:

INFO: Fetching documents from https://sports.yahoo.com/mlb/rss.xml completed

INFO: Clearning 4 documents completed

[(0, '0.022*"look" + 0.022*"friday" + 0.022*"around" + 0.022*"majors"'), (1, '0.023*"leading" + 0.023*"semien" + 0.022*"inning" + 0.014*"homer"')]

NLP（十）主题识别的更多相关文章

【NLP】主题识别文档
http://www.biostatistic.net/thread-94974-1-1.html http://www.doc88.com/p-9843685205530.html http://w ...
NLP十大里程碑
NLP十大里程碑 2.1 里程碑一:1985复杂特征集复杂特征集(complex feature set)又叫做多重属性(multiple features)描写.语言学里,这种描写方法最早出现在语 ...
算法工程师进化-NLP之主题模型
1 引言主题模型是文本挖掘的重要工具,近年来在学术界和工业届都获得了非常多的关注.学术界的工作主要集中在建模层面,即提出各种各样的主题模型来适应不同的场景,因此缺乏指导主题模型在工业场景落地的资源和 ...
『深度应用』NLP命名实体识别(NER)开源实战教程
近几年来,基于神经网络的深度学习方法在计算机视觉.语音识别等领域取得了巨大成功,另外在自然语言处理领域也取得了不少进展.在NLP的关键性基础任务—命名实体识别(Named Entity Recogni ...
NLP︱LDA主题模型的应用难题、使用心得及从多元统计角度剖析
将LDA跟多元统计分析结合起来看,那么LDA中的主题就像词主成分,其把主成分-样本之间的关系说清楚了.多元学的时候聚类分为Q型聚类.R型聚类以及主成分分析.R型聚类.主成分分析针对变量,Q型聚类针对样 ...
写给程序员的机器学习入门 (十) - 对象识别 Faster-RCNN - 识别人脸位置与是否戴口罩
每次看到大数据人脸识别抓逃犯的新闻我都会感叹技术发展的太快了,国家治安水平也越来越好了
【NLP】Python实例：申报项目查重系统设计与实现
Python实例:申报项目查重系统设计与实现作者:白宁超 2017年5月18日17:51:37 摘要:关于查重系统很多人并不陌生,无论本科还是硕博毕业都不可避免涉及论文查重问题,这也对学术不正之风起 ...
【NLP】Python实例：基于文本相似度对申报项目进行查重设计
Python实例:申报项目查重系统设计与实现作者:白宁超 2017年5月18日17:51:37 摘要:关于查重系统很多人并不陌生,无论本科还是硕博毕业都不可避免涉及论文查重问题,这也对学术不正之风起 ...
自然语言处理(NLP)
苹果语音助手Siri的工作流程: 听懂思考组织语言回答这其中每一步骤涉及的流程为: 语音识别自然语言处理 - 语义分析逻辑分析 - 结合业务场景与上下文自然语言处理 - 分析结果生成自 ...

随机推荐

自定义SWT控件一之自定义单选下拉框
一.自定义下拉控件自定义的下拉框,是自定义样式的,其中的下拉框使用的是独立的window,非复选框的下拉框双击单机其它区域或选择完之后,独立window构成的下拉框会自动消失. package co ...
Lua语言学习
1,语法语句不用分号结尾 function ... end if .. else .. end 2, io库, string库, table库, OS库, 算术库, debug库 3, dofile ...
Selenium+java - 截图操作
写在前面自动化测试过程中,运行失败截图可以很好的帮我们定位问题,因此,截图操作也是我们自动化测试中的一个重要环节. 截图方法 1.通过截图类TakeScreenshout实现截图特点:截取浏览器窗 ...
WebService—— IDEA创建WebServices
一.File–>New–>Project 弹出这个对话框后,照下图的勾选然后点击Next,然后填写项目名和项目路径后,点击finish. 二.生成目录如下需要注意的有HelloWorld ...
【模板】zkw线段树
题意简述已知一个数列,你需要进行下面两种操作: 1.将某一个数加上x 2.求出某区间每一个数的和代码 #include <cstdio> using namespace std; in ...
SBT安装及命令行打包spark程序
1.从https://www.scala-sbt.org/download.html官网上寻找所需要的安装包可以直接本地下载完扔进去也可以wget路径,在这里我用的是sbt1.2.8版本的,下载到/ ...
JAVA的初体验
jdk的地址:https://www.oracle.com/technetwork/java/javase/downloads/index.html 第一步:找到相应的JAVA SE版本,点击down ...
webpack4 前端框架基础配置实例-解决css分离图片路径问题
1.安装nodejs 2. 需要全局和项目安装webpack和webpack-dev-server npm install webpack webpack-dev-server -g npm inst ...
设计一个完美的http缓存策略
1.前言作为一个前端,了解http缓存是非常必要,它不仅是面试的必要环节,也更是实战开发中必不可少需要了解的知识点,本文作者将从缓存的概念讲到如何在业务中设计一个合理的缓存架构,带你一步一步解开ht ...
Django Mysql数据库-F查询和Q查询
一.F查询和Q查询 F查询: 在上面所有的例子中,我们构造的过滤器都只是将字段值与某个常量做比较.如果我们要对两个字段的值做比较,那该怎么做呢? Django 提供 F() 来做这样的比较.F() 的 ...

NLP（十） 主题识别

NLP（十） 主题识别的更多相关文章

随机推荐

热门专题

NLP（十）主题识别

NLP（十）主题识别的更多相关文章