很久以前，我用过TFIDF做过行业关键词提取。TFIDF仅仅从词的统计信息出发，而没有充分考虑词之间的语义信息。现在本文将介绍一种考虑了相邻词的语义关系、基于图排序的关键词提取算法TextRank。

1. 介绍

TextRank由Mihalcea与Tarau于EMNLP'04 [1]提出来，其思想非常简单：通过词之间的相邻关系构建网络，然后用PageRank迭代计算每个节点的rank值，排序rank值即可得到关键词。PageRank本来是用来解决网页排名的问题，网页之间的链接关系即为图的边，迭代计算公式如下：

\[PR(V_i) = (1-d) + d * \sum_{j \in In(V_i)} \frac{1}{|Out(V_j)|}PR(V_j)
\]

其中，\(PR(V_i)\)表示结点\(V_i\)的rank值，\(In(V_i)\)表示结点\(V_i\)的前驱结点集合，\(Out(V_j)\)表示结点\(V_j\)的后继结点集合，\(d\)为damping factor用于做平滑。

网页之间的链接关系可以用图表示，那么怎么把一个句子（可以看作词的序列）构建成图呢？TextRank将某一个词与其前面的N个词、以及后面的N个词均具有图相邻关系（类似于N-gram语法模型）。具体实现：设置一个长度为N的滑动窗口，所有在这个窗口之内的词都视作词结点的相邻结点；则TextRank构建的词图为无向图。下图给出了由一个文档构建的词图（去掉了停用词并按词性做了筛选）：

考虑到不同词对可能有不同的共现（co-occurrence），TextRank将共现作为无向图边的权值。那么，TextRank的迭代计算公式如下：

\[WS(V_i) = (1-d) + d * \sum_{j \in In(V_i)} \frac{w_{ji}}{\sum_{V_k \in Out(V_j)} w_{jk}} WS(V_j)
\]

2. 评估

接下来将评估TextRank在关键词提取任务上的准确率、召回率与F1-Measure，并与TFIDF做对比；准确率计算公式如下：

\[Precision = \frac{1}{N} \sum_{i=0}^{N-1} \frac{\left|P_i \cap T_i\right|}{\left|P_i\right|}
\]

其中，\(N\)为文档数量，\(P_i\)为文档\(i\)所提取出的关键词，\(T_i\)为文档的标注关键词。召回率与F1的计算公式如下：

\[Recall = \frac{1}{N} \sum_{i=0}^{N-1} \frac{\left|P_i \cap T_i\right|}{\left|T_i\right|}
\]

\[F1 = \frac{2*Precision*Recall}{Precision + Recall}
\]

测试集是由刘知远老师提供的网易新闻标注数据集，共有13702篇文档。Jieba完整地实现了关键词提取TFIDF与TextRank算法，基于Jieba-0.39的评估实验代码如下：

import jieba.analyse

import json

import codecs

def precision_recall_fscore_support(y_true, y_pred):

    """

    evaluate macro precision, recall and f1-score.

    """

    doc_num = len(y_true)

    p_macro = 0.0

    r_macro = 0.0

    for i in range(doc_num):

        tp = 0

        true_len = len(y_true[i])

        pred_len = len(y_pred[i])

        for w in y_pred[i]:

            if w in y_true[i]:

                tp += 1

        p = 1.0 if pred_len == 0 else tp / pred_len

        r = 1.0 if true_len == 0 else tp / true_len

        p_macro += p

        r_macro += r

    p_macro /= doc_num

    r_macro /= doc_num

    return p_macro, r_macro, 2 * p_macro * r_macro / (p_macro + r_macro)

file_path = 'data/163_chinese_news_dataset_2011.dat'

with codecs.open(file_path, 'r', 'utf-8') as fr:

    y_true = []

    y_pred = []

    for line in fr.readlines():

        d = json.loads(line)

        content = d['content']

        true_key_words = [w for w in set(d['tags'])]

        y_true.append(true_key_words)

        # for w in true_key_words:

        #     jieba.add_word(w)

        key_word_pos = ['x', 'ns', 'n', 'vn', 'v', 'l', 'j', 'nr', 'nrt', 'nt', 'nz', 'nrfg', 'm', 'i', 'an', 'f', 't',

                        'b', 'a', 'd', 'q', 's', 'z']

        extract_key_words = jieba.analyse.extract_tags(content, topK=2, allowPOS=key_word_pos)

        # trank = jieba.analyse.TextRank()

        # trank.span = 5

        # extract_key_words = trank.textrank(content, topK=2, allowPOS=key_word_pos)

        y_pred.append(extract_key_words)

    prf = precision_recall_fscore_support(y_true, y_pred)

    print('precision: {}'.format(prf[0]))

    print('recall: {}'.format(prf[1]))

    print('F1: {}'.format(prf[2]))

其中，每个文档提取的关键词数为2，并按词性做过滤；span表示TextRank算法中的滑动窗口的大小。评估结果如下：

方法	Precision	Recall	F1-Measure
TFIDF	0.2697	0.2256	0.2457
TextRank span=5	0.2608	0.2150	0.2357
TextRank span=7	0.2614	0.2155	0.2363

如果将标注关键词添加到自定义词典，则评估结果如下：

方法	Precision	Recall	F1-Measure
TFIDF	0.3145	0.2713	0.2913
TextRank span=5	0.2887	0.2442	0.2646
TextRank span=7	0.2903	0.2455	0.2660

直观感受下关键词提取结果（添加了自定义词典）：

// TFIDF, TextRank, labelled

['文强', '陈洪刚'] ['文强', '陈洪刚'] {'文强', '重庆'}

['内贾德', '伊朗'] ['伊朗', '内贾德'] {'制裁', '世博', '伊朗'}

['调控', '王珏林'] ['调控', '楼市'] {'楼市', '调控'}

['罗平县', '男子'] ['男子', '罗平县'] {'被砍', '副局长', '情感纠葛'}

['佟某', '黄玉'] ['佟某', '黄现忠'] {'盲井', '伪造矿难'}

['女生', '聚众淫乱'] ['女生', '聚众淫乱'] {'聚众淫乱', '东莞', '不雅视频'}

['马英九', '和平协议'] ['马英九', '推进'] {'国台办', '马英九', '和平协议'}

['东帝汶', '巡逻艇'] ['东帝汶', '中国'] {'东帝汶', '军舰', '澳大利亚'}

['墨西哥', '警方'] ['墨西哥', '袭击'] {'枪手', '墨西哥', '打死'}

从上述两组实验结果，可以发现：

TextRank与TFIDF均严重依赖于分词结果——如果某词在分词时被切分成了两个词，那么在做关键词提取时无法将两个词黏合在一起（TextRank有部分黏合效果，但需要这两个词均为关键词）。因此是否添加标注关键词进自定义词典，将会造成准确率、召回率大相径庭。
TextRank的效果并不优于TFIDF。
TextRank虽然考虑到了词之间的关系，但是仍然倾向于将频繁词作为关键词。

此外，由于TextRank涉及到构建词图及迭代计算，所以提取速度较慢。

3. 参考资料

[1] Rada, Mihalcea, and Paul Tarau. "TextRank: Bringing Order into Texts." empirical methods in natural language processing (2004): 404-411.

关键词提取算法TextRank的更多相关文章

关键词提取算法-TextRank
今天要介绍的TextRank是一种用来做关键词提取的算法,也可以用于提取短语和自动摘要.因为TextRank是基于PageRank的,所以首先简要介绍下PageRank算法. 1.PageRank算法 ...
TextRank：关键词提取算法中的PageRank
很久以前,我用过TFIDF做过行业关键词提取.TFIDF仅仅从词的统计信息出发,而没有充分考虑词之间的语义信息.现在本文将介绍一种考虑了相邻词的语义关系.基于图排序的关键词提取算法TextRank [ ...
自然语言处理工具hanlp关键词提取图解TextRank算法
看一个博主(亚当-adam)的关于hanlp关键词提取算法TextRank的文章,还是非常好的一篇实操经验分享,分享一下给各位需要的朋友一起学习一下! TextRank是在Google的PageRan ...
关键词提取算法TF-IDF与TextRank
一.前言随着互联网的发展,数据的海量增长使得文本信息的分析与处理需求日益突显,而文本处理工作中关键词提取是基础工作之一. TF-IDF与TextRank是经典的关键词提取算法,需要掌握. 二.TF- ...
关键字提取算法TF-IDF和TextRank（python3）————实现TF-IDF并jieba中的TF-IDF对比，使用jieba中的实现TextRank
关键词: TF-IDF实现.TextRank.jieba.关键词提取数据来源: 语料数据来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据数据处 ...
NLP之关键词提取（TF-IDF、Text-Rank）
1.文本关键词抽取的种类: 关键词提取方法分为有监督.半监督和无监督三种,有监督和半监督的关键词抽取方法需要浪费人力资源,所以现在使用的大多是无监督的关键词提取方法. 无监督的关键词提取方法又可以分为 ...
TF-IDF算法之关键词提取
(注:本文转载自阮一峰老师的博文,原文地址:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html) 这个标题看上去好像很复杂,其实我要谈的是一个很简单的 ...
HanLP 关键词提取算法分析
HanLP 关键词提取算法分析参考论文:<TextRank: Bringing Order into Texts> TextRank算法提取关键词的Java实现 TextRank算法自动 ...
HanLP 关键词提取算法分析详解
HanLP 关键词提取算法分析详解 l 参考论文:<TextRank: Bringing Order into Texts> l TextRank算法提取关键词的Java实现 l Text ...

随机推荐

ACM-ICPC 2018 南京赛区网络预赛 L 【分层图最短路】
<题目链接> 题目大意: 有N个城市,这些城市之间有M条有向边,每条边有权值,能够选择K条边边权置为0,求1到N的最短距离. 解题分析: 分层图最短路模板题,将该图看成 K+1 层图,然 ...
POJ 1328 安装雷达 (贪心)
<题目链接> 题目大意: 以x轴为分界,y>0部分为海,y<0部分为陆地,给出一些岛屿坐标(在海中),再给出雷达可达到范围,雷达只可以安在陆地上,问最少多少雷达可以覆盖所以岛屿 ...
C++ STL中哈希表Map 与 hash_map 介绍
0 为什么需要hash_map 用过map吧?map提供一个很常用的功能,那就是提供key-value的存储和查找功能.例如,我要记录一个人名和相应的存储,而且随时增加,要快速查找和修改: 岳不群-华 ...
Markdown指南
Markdown 指南前几天学习了markdown,然后一直在用,很喜欢这种格式即内容的写作形式.在简书写了几篇,对固定链接的格式很不满意,于是寻找能够支持markdown.固定链接显格式.支持自定 ...
npm install 提示权限不足 Error: EPERM: operation not permitted, unlink XXX
问题使用npm install时提示权限不足原因这里原因有两个: 没有管理员权限访问C盘下npm路径导致下载失败. NPM官网没有下载权限. 解决方案第一原因这里可以使用管理员身份执行以下命 ...
Macbook Pro安装Office 2016 for mac
折腾了半天终于弄好了…… 工具:office2016安装包,MSO15.11.2Patch(破解脚本),Xcode office2016安装包百度网盘下载:http://pan.baidu.com/s ...
2017.08.05【NOIP提高组】模拟赛B组
Summary 这次比赛打得非常差,第一题我以为是个难题,于是推了一下就没再去想了,然而考场上一堆人AC.第二题状态设错了,导致结果有后效性.结束后pascal卡常卡了36次.第三题别人n²就过了,我 ...
UIButton 设置阴影效果
UIButton有的时候需要用代码做样式调整其中就包括添加阴影如下图中登陆按钮此时需要考虑对button的layer进行设置 button layer 设置以下几个属性 cornerRadi ...
js获取浏览器屏幕的尺寸
浏览器屏幕尺寸参照表: 如何获取屏幕宽度: 网页可见区域宽: document.body.clientWidth网页可见区域高: document.body.clientHeight网页可见区域宽: ...
/etc/security/limits.conf 文件说明
/etc/security/limits.conf 是 Linux 资源使用配置文件,用来限制用户对系统资源的使用语法:<domain> <type> <item& ...

关键词提取算法TextRank

1. 介绍

2. 评估

3. 参考资料

关键词提取算法TextRank的更多相关文章

随机推荐

热门专题