波特词干（Porter Streamming）提取算法无代码单纯理解

最近写东西提到这个算法，要看一下，结果网上都是直接根据代码解释，对于我这种菜鸟在刚开始看一个算法的时候真心不想直接看代码学。奈何都是各种语言的代码，么得办法。先走了一遍，有了大致的了解，翻译成自己的话，也不知道准不准确，欢迎懂的大佬给我批评指正。

附上官网：https://tartarus.org/martin/PorterStemmer/

一、先把单词按下述规则整理成“CV”的格式

我们假设，"C"代表一连串辅音字母，“V”代表一连串元音字母。所以，是所有单词都可以用四种字母组合来表示：

CVCV……C

CVCV……V

VCVC……C

VCVC……V

用[ ]表示可选，即有或没有均可。则四种形式可以归纳为：

[C]VCVCVC……[V]

用m表示辅音串“C”的个数，进而可以将上述形式转化为：

[C]VC{m}[V]

这样，我们就可以将每个单词都写成这种形式。

二、明确提取词干的规则

链接：https://blog.csdn.net/zhanghaiyang9999/article/details/41628789

*S -词干以S结束 (同样适用于其他字符).

*v* - 词干包含一个元音.

*d - 词干以两个相同辅音结束(如. -TT, -SS).

*o - 词干以cvc的形式结束, 但是第二个c（辅音）不是 W, X 或者Y (如 -WIL, -HOP).

这些条件可以用AND，OR和NOT来运算，但只选择符合最长的一种，例如：

SSES -> SS AND
IES -> I AND
SS -> SS AND
S ->

classes->class而不是classe，因为它会选择最长的匹配规则。

另外，步骤一中提到的m也会作为条件规则的一部分。

三、加入合适条件取出后缀

(condition) S1 -> S2

(condition) 是s1的条件，假如s1满足(condition) ，那么就转化为s2。(condition) 由步骤二中的规则和逻辑连接词AND，OR和NOT构成。

我理解的大致步骤就是这样，然后就要看代码了，以后发现有错误再改喽。

波特词干（Porter Streamming）提取算法无代码单纯理解的更多相关文章

经典面试题（二）附答案算法+数据结构+代码微软Microsoft、谷歌Google、百度、腾讯
1.正整数序列Q中的每个元素都至少能被正整数a和b中的一个整除,现给定a和b,需要计算出Q中的前几项, 例如,当a=3,b=5,N=6时,序列为3,5,6,9,10,12 (1).设计一个函数void ...
TextRank：关键词提取算法中的PageRank
很久以前,我用过TFIDF做过行业关键词提取.TFIDF仅仅从词的统计信息出发,而没有充分考虑词之间的语义信息.现在本文将介绍一种考虑了相邻词的语义关系.基于图排序的关键词提取算法TextRank [ ...
关键词提取算法TextRank
很久以前,我用过TFIDF做过行业关键词提取.TFIDF仅仅从词的统计信息出发,而没有充分考虑词之间的语义信息.现在本文将介绍一种考虑了相邻词的语义关系.基于图排序的关键词提取算法TextRank. ...
关键字提取算法TF-IDF和TextRank（python3）————实现TF-IDF并jieba中的TF-IDF对比，使用jieba中的实现TextRank
关键词: TF-IDF实现.TextRank.jieba.关键词提取数据来源: 语料数据来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据数据处 ...
PIE SDK水深提取算法
1.算法功能简介水深提取算法就是根据输入的水位设为d,dem设为h 这两个数据做一个差值运算,则水深计算公式为d-h;本示例中的是基于洞庭湖提取的水体矢量文件的范围来计算dem和水位25米的差值. ...
关键词提取算法TF-IDF与TextRank
一.前言随着互联网的发展,数据的海量增长使得文本信息的分析与处理需求日益突显,而文本处理工作中关键词提取是基础工作之一. TF-IDF与TextRank是经典的关键词提取算法,需要掌握. 二.TF- ...
Salesforce吹嘘无代码开发，不用费脑子的人工智能
Salesforce在星期四举办的Dreamforce '16大会上,开发人员主题演讲可谓面面俱到--听众被舞台包围了,而不是远远地坐在观众席. 这是符合该公司在六月份第一次的开发者大会Trailhe ...
难道ERP＂死了＂,中台＂凉了＂,低/无代码要称王了？
业内有一种说法,ERP经历了20多年的发展,其理念已经行不通,跟不上时代.后起之秀"中台"经历了崛起.走红.被传唱等阶段.并且已经冷却下来.此外,随着市场的不断变化,"低 ...
第2-2-4章常见组件与中台化-常用组件服务介绍-分布式ID-附Snowflake雪花算法的代码实现
目录 2.3 分布式ID 2.3.1 功能概述 2.3.2 应用场景 2.3.3 使用说明 2.3.4 项目截图 2.3.5 Snowflake雪花算法的代码实现 2.3 分布式ID 2.3.1 功能 ...

随机推荐

[NOIP 2018]旅行
题目链接题意简介:现有一个图,小Y要把它走完,每个点只去一次,路径字典序最小. 分析:这道题我认为很重要的一个点就是它的数据范围.它只有两种 m=n-1 或 m=n.我们先考虑第一种:m=n-1也就 ...
Linux文件权限符号说明
为了控制权限,Linux首先对于将操作的用户分为:用户.用户组和其他,这三个概念. 每个文件都会属于某个用户,而一个用户可以属于多个用户组,而不属于该用户组的用户,则属于其他.因此,每个文件的操作权限 ...
Hive的自定义函数
功能: 通过人的生日,算出人的生肖和星座. 先在hive中创建一个表: 往这表中导入数据: 导入的数据为: 可以成功查询: 编写自定义函数代码:如下 package cn.tendency.wenzh ...
学到了林海峰,武沛齐讲的Day17-5 内置函数
zip print(list(zip(('a','n','c','d'),(1,2,3)))) =====[('a', 1), ('n', 2), ('c', 3)] 一一对应====元组变列表 ...
LOJ P10151 分离与合体题解
Analysis 区间dp+记录路径用dfs倒着找倒数第几次合并 #include<iostream> #include<cstdio> #include<cstrin ...
luogu 3248
直接向原树加子树是不可能的考虑重新建立这样一颗树,我们称之为 S 树将每次需要添加的子树看做一个点,称之为 S 点新建的树就是由这些点构成的,那么树的大小是合理的初始节点为整棵原树由于添加的子树 ...
NetworkX系列教程(10)-算法之三:关键路径问题
小书匠Graph图论重头戏部分来了,写到这里我感觉得仔细认真点了,可能在NetworkX中,实现某些算法就一句话的事,但是这个算法是做什么的,用在什么地方,原理是怎么样的,不清除,所以,我决定先把图 ...
1.OC类
一.基础语法 1.在OC中,一般用2个文件来描述一个类: 1> .h:类的声明文件,用于声明成员变量.方法.类的声明使用关键字@interface和@end. 注意:.h中的方法只是做一个声明, ...
BAT资深工程师由浅入深分析Tp5&Tp6底层源码☆
第1章课程简介本章主要让大家知道本套课程的主线, 导学内容,如何学习源码等,看完本章要让小伙伴觉得这个是必须要掌握的,并且对加薪有很大的帮助. 第2章 [TP5灵魂]自动加载Loader 深度分析 ...
（转载）：nmon使用
转:http://www.cnblogs.com/mululu/p/6398483.html 博客园首页新随笔联系管理订阅随笔- 76 文章- 1 评论- 2 Nmon的安装及使用 ...

波特词干（Porter Streamming）提取算法无代码单纯理解

波特词干（Porter Streamming）提取算法无代码单纯理解的更多相关文章

随机推荐

热门专题