一、分词

主要是词包大法，你懂得，阿里词包都不用自己写，本身一大堆啊！！！厉害了word哥：公众趋势分析背后有百万级的人名、品牌、地址、组织机构名、商品、品牌词库等做支撑。

万能词包啊！！！

.

.

二、关键词提取

如何在一篇长文本中挑出关键词呢？在一定程度也就是等于找词权重，一种衡量一个句子里面词语重要性指标，其他方法可见博客：

NLP︱句子级、词语级以及句子-词语之间相似性（相关名称：文档特征、词特征、词权重）

那么，该舆情平台使用的是：TextRank算法为文本生成关键词。

TextRank的算法思想来源于PageRank，旨在通过文本中句子、词之间的相互投票，为句子、词进行权重的排序。PageRank假设一个网页的入链越多，则其权重越高。随机地为每个网页分配一个初始权重，在每一轮投票中，每个网页将其权重均匀地分配给其出链，收敛后（平稳马尔科夫过程）每个网页得到的权重值反映了其重要性，每轮投票的数学表述为：

其中d为阻尼系数，（1-d）/N表示每次页面转移时有一定的概率会从全网随机选择url，这样可以避免没有外链的悬挂网页让所有权重收敛到0。

PageRank通过页面之间的链接关系建立投票机制，TextRank以此为启发，通过词之间的邻近关系建立词权重投票机制，即假如两个词出现在同一个窗口中，则它们之间产生一次权重投票，这样可以通过PageRank的求解方法，计算每个词在文本中的权重。得到权重的排序之后，就可以挑选topN词作为关键词了。

.

.

三、词关联计算

词关联计算也可以使用社交网络的方式（点出度、点入度等，参考：R语言︱SNA-社会关系网络

R语言实现专题（基础篇）（一）），也可以使用一些统计学的方式（互信息，

NLP︱句子级、词语级以及句子-词语之间相似性（相关名称：文档特征、词特征、词权重））。

该平台使用的是互信息.

词关联使用点互信息PMI（pointwise mutual information）来表示，用信息论的语言来表述，点互信息衡量的是“给定一个随机变量后，另一个随机变量不确定性的减少程度”。假设有两个词x和y，则x和y之间的点互信息由下述公式表示：

其中p(x,y)表示x和y同时出现的概率，p(x)和p(y)分别表示x和y单独出现的概率。简单粗暴地理解，就是说相对于单独出现，某两个词更喜欢一起出现，则它们之间的关联程度越高。

.

.

四、词热度计算

词的热度计算不能仅仅统计这个词在所有文章中的出现次数，因为每篇文章的热门程度不一样，汪峰上了头条时的报道，对于热度的计算不能跟一般的小道消息同日而语。热词分析在计算热度时，会用文章的热度对词进行加权，而文章的热度会综合考虑以下因素：

文章的转发量

浏览量

评论量

文章发布的时间，如果发布时间越长，则热度衰减地越高

具体的计算公式就不在这公开了,那是我们经过无数次的调试之后的结果，有兴趣的读者也可以了解一下这篇文章:http://www.smartinsights.com/social-media-marketing/facebook-marketing/how-to-use-facebook-edgerank/?spm=5176.100239.blogcont68813.7.0MuQOh

阿里舆情︱舆情热词分析架构简述（Demo学习）的更多相关文章

信息领域热词分析系统--python统计
统计词语出现的频率,并且按从高到低的顺序报错在文件中 def main(): file=open("F:\大数据\大作业\分词后的文件\data4_xinxi.txt",'r') ...
信息领域热词分析系统--python过滤
利用python过滤去没用的词语,过滤的词语存储在停用文件中. #创建停用词表 def stopwordlist(): stopwords=[line.strip() for line in open ...
信息领域热词分析系统--python切词
利用python将标题切割成词语 import jieba #读取文件 f=open(r"F:\大数据\大作业\爬取到的数据\data1_xinxi.txt",'r') s=f.r ...
信息领域热词分析系统--java爬取CSDN中文章标题即链接
package zuoye1; import java.sql.Connection;import java.sql.PreparedStatement;import java.sql.SQLExce ...
返回模式有流式(streaming)和整体(total) 热词词表解决方案
重要术语说明_语音识别(ASR)_智能语音交互-阿里云 https://help.aliyun.com/document_detail/72238.html 返回模式(response mode) ...
Python 爬取热词并进行分类数据分析-[App制作]
日期:2020.02.14 博客期:154 星期五 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
Python 爬取热词并进行分类数据分析-[热词分类+目录生成]
日期:2020.02.04 博客期:143 星期二 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[ ...
Python 爬取热词并进行分类数据分析-[云图制作+数据导入]
日期:2020.01.28 博客期:136 星期二 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入](本期博客) ...
新闻热词:从爬虫到react native应用
背景由于只想了解当天新增的top热词,减少过多信息干扰,打算做一款app实现这个功能. 架构: 热词抓取 -> mysql <=> nodejs <=> nginx & ...

随机推荐

[PHP]PDO占位符预处理在 IN 和 LIKE 中用法
两点注意项: 1. 占位符 (?) 必须被用在整个值的位置,不需要引号等其它字符. 2. 参数按数组元素顺序依次传递给占位符. <?php /** * PDO基于占位符的查询预处理 * * @l ...
iOS项目——自定义UITabBar与布局
在上一篇文章iOS项目——基本框架搭建中,我们详细说明了如何对TabBarItem的图片属性以及文字属性进行一些自定义配置.但是,很多时候,我们需要修改TabBarItem的图片和文字属性之外,还需要 ...
BZOJ 3990: [SDOI2015]排序 [搜索]
3990: [SDOI2015]排序题意:\(2^n\)的一个排列,给你n种操作,第i种把每\(2^{i-1}\)个数看成一段,交换任意两段.问是这个序列有序的操作方案数,两个操作序列不同,当且仅当 ...
HDU 3689 Infinite monkey theorem [KMP DP]
Infinite monkey theorem Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Oth ...
Angular4---部署---Angular 与 Nginx的邂逅
Nginx + Angular结合操作 1.下载Nginx , 根据自己的版本下载Nginx,关于Nginx配置,请看https://www.cnblogs.com/MBirds/p/6605366. ...
Maven服务器
Maven私服仓库管理: Nexus 3.0 使用nexus3.X搭建maven私服在Centos7环境中-详细教程
phpMyAdmin的使用
phpMyAdmin的使用安装MySQL数据库后,用户即可在命令行提示符下进行创建数据库和数据表等各种操作,但这种方法非常麻烦,而且需要有专业的SQL语言知识.PHP官方开发了一个类似于SQL Se ...
Jenkins配置备份恢复插件ThinBackup
一.系统管理-管理插件-找到ThinBackup并安装二.系统管理-找到ThinBackup-点击Setting进行设置第一个参数备份目录是必选,其它可选,点保存. 三.保存后返回到ThinBac ...
Linux-安装FFmpeg
FFmpeg官网:http://www.ffmpeg.org 官网介绍 FFmpeg is the leading multimedia framework, able to decode, enco ...
关于echarts 报错初始化对象未定义
<!DOCTYPE html> <html> <head> <meta charset="utf-8" /> <title&g ...