pyhanlp 共性分析与短语提取内容详解

 

简介

HanLP中的词语提取是基于互信息与信息熵。想要计算互信息与信息熵有限要做的是 文本分词进行共性分析。在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理。在文末在给出pyhanlp的调用代码。

共性分析

互信息mi,左熵lr,右熵re,详细解释见下文

信息论中的互信息

一般而言,信道中总是存在着噪声和干扰,信源发出消息x,通过信道后信宿只可能收到由于干扰作用引起的某种变形的y。信宿收到y后推测信源发出x的概率,这一过程可由后验概率p(x|y)来描述。相应地,信源发出x的概率p(x)称为先验概率。我们定义x的后验概率与先验概率比值的对数为y对x的互信息量(简称互信息)。

根据熵的连锁规则,有

1| H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)

因此,

1|H(X) - H(X|Y) = H(Y) - H(Y|X)

这个差叫做X和Y的互信息,记作I(X;Y)。

其中P(x) 为 单词x出现的次数与总单词数的比值(数学含义为单词x出现的概率)。而P(x,y)则为二阶短语x->y 出现的次数与所有二阶短语的次数。

比如在刚刚的说明中,假设默认分词方式将“后验概率”分为“后验”,“概率” 两个大短语,则后验->概率 这个二阶短语一共出现了两次,假设所有二阶短语合共有一百个,则p(后验->概率) = 2 /100 = 1/ 50。

要注意的是hanlp作者个的文章《基于互信息和左右信息熵的短语提取识别》中。公式与表标准定义的互信息并不一致,少乘了一个p(x,y),查看源码发现作者确实是按照没有p(x,y)的公式进行计算的。不过使用简化公式计算似乎也是没有问题的。此处还可以参考大鱼的一篇文章

信息熵

利用信息熵提取

熵这个术语表示随机变量不确定性的量度。具体表述如下: 一般地, 设X 是取有限个值的随机变量( 或者说X 是有限个离散事件的概率场) , X 取值x 的概率为P ( x ) , 则X 的熵定义为:

左右熵是指多字词表达的左边界的熵和右边界的熵。左右熵的公式如下:

具体计算方法是,以左熵为例,对一个串左边所有可能的词以及词频,计算信息熵,然后求和。

比如算法->工程师这个二阶短语,其左边可能有很多接续,比如“从事算法工程师”和“成为算法工程师”,当其接续多了,左熵也就会更高。这个二阶短语是一个二阶短语的可能性就更大一些。

但是这里存在一个问题,贾母默认分词与停用词效果不好,可能会将“abcd”分成“a,b,c,d”然后去掉“c”这种停用词,这样“a,b,d”则可能被作为一个三阶短语发现。在HanLP中因为只能发现二阶短语,所以可能因为去掉“a,b”中的一个导致无法发现二阶短语这种情况出现,但是这只存在着理论上的可能。

共性分析

共性 是指 文本中词语共同出现的情况。在hanlp中如果直接调用共性分析模块不仅可以获取词频统计,还可以一同给出互信息mi,左熵lr,右熵re。以下是pyhanlp中的使用。

短语提取

说明

内部采用MutualInformationEntropyPhraseExtractor实现,用户可以直接调用MutualInformationEntropyPhraseExtractor.extractPhrase(text, size)。

算法详解

《基于互信息和左右信息熵的短语提取识别》

该功能的实现依赖于共性分析,详细内容可以查看《基于互信息和左右信息熵的短语提取识别》

pyhan中的短语提取

# 短语提取

text = """算法工程师\n

算法(Algorithm)是一系列解决问题的清晰指令,也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。算法工程师就是利用算法处理事物的人。\n

1职位简介\n

算法工程师是一个非常高端的职位;\n

专业要求:计算机、电子、通信、数学等相关专业;\n

学历要求:本科及其以上的学历,大多数是硕士学历及其以上;\n

语言要求:英语要求是熟练,基本上能阅读国外专业书刊;\n

必须掌握计算机相关知识,熟练使用仿真工具MATLAB等,必须会一门编程语言。\n

2研究方向\n

视频算法工程师、图像处理算法工程师、音频算法工程师 通信基带算法工程师\n

\n

3目前国内外状况\n

目前国内从事算法研究的工程师不少,但是高级算法工程师却很少,是一个非常紧缺的专业工程师。算法工程师根据研究领域来分主要有音频/视频算法处理、图像技术方面的二维信息算法处理和通信物理层、雷达信号处理、生物医学信号处理等领域的一维信息算法处理。\n

在计算机音视频和图形图像技术等二维信息算法处理方面目前比较先进的视频处理算法:机器视觉成为此类算法研究的核心;另外还有2D转3D算法(2D-to-3D conversion),去隔行算法(de-interlacing),运动估计运动补偿算法(Motion estimation/Motion Compensation),去噪算法(Noise Reduction),缩放算法(scaling),锐化处理算法(Sharpness),超分辨率算法(Super Resolution),手势识别(gesture recognition),人脸识别(face recognition)。\n

在通信物理层等一维信息领域目前常用的算法:无线领域的RRM、RTT,传送领域的调制解调、信道均衡、信号检测、网络优化、信号分解等。\n" +

另外数据挖掘、互联网搜索算法也成为当今的热门方向。\n

算法工程师逐渐往人工智能方向发展。"""

phraseList = HanLP.extractPhrase(text, 10)

print(phraseList);

1|[算法工程师, 算法处理, 一维信息, 算法研究, 图像技术, 信号处理, 信息算法, 处理算法, 视频算法, 通信物理]

作者:Font Tian

原文:https://blog.csdn.net/FontThrone/article/details/82824202

pyhanlp 共性分析与短语提取内容详解的更多相关文章

  1. 协议分析 - DHCP协议解码详解

    协议分析 - DHCP协议解码详解 [DHCP协议简介]         DHCP,全称是 Dynamic Host Configuration Protocol﹐中文名为动态主机配置协议,它的前身是 ...

  2. JMeter 后置处理器之正则表达式提取器详解

    后置处理器之正则表达式提取器详解   by:授客 QQ:1033553122 1. 添加正则表达式提取器 右键线程组->添加->后置处理器->正则表达式提取器 2. 提取器配置介绍 ...

  3. HanLP 关键词提取算法分析详解

    HanLP 关键词提取算法分析详解 l 参考论文:<TextRank: Bringing Order into Texts> l TextRank算法提取关键词的Java实现 l Text ...

  4. GridView内容详解(转载)

    GridView内容详解(转载) GridView是ASP.NET界面开发中的一个重要的控件,对GridView使用的熟练程度直接影响软件开发的进度及功能的实现.(车延禄)GridView的主要新特性 ...

  5. Jmeter 正则表达式提取器详解(Regular Expression Exactor)

    Jmeter 正则表达式提取器详解(Regular Expression Exactor) Name(名称):随意设置,最好有业务意义. Comments(注释):随意设置,可以为空 Apply to ...

  6. [转帖]Windows注册表内容详解

    Windows注册表内容详解 来源:http://blog.sina.com.cn/s/blog_4d41e2690100q33v.html 对 windows注册表一知半解 不是很清晰 这里学习一下 ...

  7. linux驱动由浅入深系列:高通sensor架构实例分析之三(adsp上报数据详解、校准流程详解)【转】

    本文转载自:https://blog.csdn.net/radianceblau/article/details/76180915 本系列导航: linux驱动由浅入深系列:高通sensor架构实例分 ...

  8. Windows注册表内容详解

    Windows注册表内容详解 http://blog.sina.com.cn/s/blog_4d41e2690100q33v.html (2011-04-05 10:46:17)   第一课  注册表 ...

  9. jmeter之json提取器详解

    Json提取器详解 *Apply to:参照正则表达式提取器 *Names of created:自定义变量名. 变量名可以填写多个,变量名之间使用分号进行分隔. 一旦变量名有多个,则下方的json ...

随机推荐

  1. DOM中offsetLeft与style.left的区别

    offsetLeft 获取的是相对于父对象的左边距 left 获取或设置相对于 具有定位属性(position定义为relative)的父对象 的左边距 如果父div的position定义为relat ...

  2. Makefile 中 ifeq ifneq 等用法

    (1)ifeq的用法 ifeq ($(变量名), 变量值 ) ........ else ifeq ($(..), ..) ......... else ......... endif (2)最近在学 ...

  3. django配置Ueditor富文本编辑器

    1.https://github.com/twz915/DjangoUeditor3下载包,进入包文件夹,找到DjangoUeditor包拷贝到项目下,和xadmin同级目录 2.找到项目的setti ...

  4. JAVA (StringBuffer/StringBuilder)常用API

    public class Copy3 { public static void main(String[] args) { //构造实例化 StringBuffer strbu = new Strin ...

  5. js获取当天零点的时间戳

    var now_date = new Date();//获取Date对象now_date.setHours(0);//设置小时now_date.setMinutes(0);//设置分钟now_date ...

  6. ORA-15025 搭建DG环境,restore controlfile报错,提示oracle无法使用ASM存储

    环境说明: #主库RAC环境 #备库RAC环境,操作系统AIX 6.1 数据库版本11.2.0.3 报错说明: #主库备份控制文件,传输至备库,备库restore 报错 本篇文档,分为两大阶段:第一阶 ...

  7. 百练8216-分段函数-2016正式A题

    百练 / 2016计算机学科夏令营上机考试 已经结束 题目 排名 状态 统计 提问   A:分段函数 查看 提交 统计 提问 总时间限制:  1000ms 内存限制:  65536kB 描述 编写程序 ...

  8. K - FatMouse and Cheese

    最近一直在写dp,然后别的就啥也不管了(wtcl),很明显的最简单的搜索题竟然卡了,一开始的思路是每一个格子都只能是从四周的格子转化过来的,只要找到四周最大的那个那么dp[i][j]=max+a[i] ...

  9. lecture4特征提取-七月在线-cv

    霍夫变换 http://blog.csdn.net/sudohello/article/details/51335237 http://blog.csdn.net/glouds/article/det ...

  10. 2017.7.12 Python的6种内建序列及操作

    数据结构是通过某种方式(例如对元素进行编号)组织在一起的数据元素的集合,这些数据元素可以是数字或者字符,甚至可以是其他数据结构. 在Python中,最基本的数据结构是序列(sequence).序列中的 ...