python中文分词方法之基于规则的中文分词

基于规则的中文分词

包括，正向最大匹配法，逆向最大匹配法和双向最大匹配法。
最大匹配方法是最有代表性的一种基于词典和规则的方法，其缺点是严重依赖词典，无法很好地处理分词歧义和未登录词。优点是由于这种方法简单、速度快、且分词效果基本可以满足需求，因此在工业界仍然很受欢迎。

正向最大匹配法

思想：
正如方法名称，正向表示对句子从左到右选择词典中最长的词条进行匹配，获得分词结果。
1、统计分词词典，确定词典中最长词条的字符m；
2、从左向右取待切分语句的m个字符作为匹配字段，查找词典，如果匹配成功，则作为一个切分后的词语，否则，去掉待匹配字符的最后一个继续查找词典，重复上述步骤直到切分出所有词语。

算法详细描述：
可参考博客正向最大匹配法算法详细介绍

Coding举例：

dictA = ['南京市', '南京市长', '长江大桥',  '大桥']

maxDictA = max([len(word) for word in dictA])

sentence = "南京市长江大桥"

def cutA(sentence):

    result = []

    sentenceLen = len(sentence)

    n = 0

    while n < sentenceLen:

        matched = 0

        for i in range(maxDictA, 0, -1):

            piece = sentence[n:n+i]

            if piece in dictA:

                result.append(piece)

                matched = 1

                n = n + i

                break

        if not matched:

            result.append(sentence[n])

            n += 1

    print(result)

cutA(sentence)  # ['南京市长', '江', '大桥']

说明：具体应用中需要去除停用词

逆向最大匹配法

思想：
与正向最大匹配原理相同，主要差异是：
1、对句子从右到左选择词典中最长的词条进行匹配，获得分词结果；
2、当匹配失败时，去掉待匹配字符的最前面的一个继续查找词典。

Coding举例：

dictB = ['南京市', '南京市长', '长江大桥',  '大桥']

maxDictB = max([len(word) for word in dictA])

sentence = "南京市长江大桥"

def cutB(sentence):

    result = []

    sentenceLen = len(sentence)

    while sentenceLen > 0:

        word = ''

        for i in range(maxDictB, 0, -1):

            piece = sentence[sentenceLen-i:sentenceLen]

            if piece in dictB:

                word = piece

                result.append(word)

                sentenceLen -= i

                break

        if word is '':

            sentenceLen -= 1

            result.append(sentence[sentenceLen])

    print(result[::-1])

cutB(sentence)  # ['南京市', '长江大桥']

双向最大匹配法

思想：
将正向最大匹配和逆向匹配得到的分词结果进行比较，按照最大匹配原则，选择切分总词数最少的作为最终分词结果。

举例：
dictA：# [‘南京市长’, ‘江’, ‘大桥’]
dictB: # [‘南京市’, ‘长江大桥’]
最终选择，dictB的结果。

总结：词典简单高效，但是词典构建工作量巨大，对于新词切分总慢一步，很难通过词典覆盖到所有词。

二、推荐中文分词工具

请参考另外一篇文章，链接如下：

python 中文分词工具介绍

三、参考链接

内容：书籍《python自然语言处理算法与实战核心算法与实战》
中文信息处理报告2016
代码：https://github.com/nlpinaction/learning-nlp

python自然语言处理（NLP）1------中文分词1，基于规则的中文分词方法的更多相关文章

用python实现入门级NLP
今天看到一篇博文,是讲通过python爬一个页面,并统计页面词频的脚本,感觉蛮有意思的 Python NLP入门教程:http://python.jobbole.com/88874/ 本文简要介绍Py ...
学习NLP:《精通Python自然语言处理》中文PDF+英文PDF+代码
自然语言处理是计算语言学和人工智能之中与人机交互相关的领域之一. 推荐学习自然语言处理的一本综合学习指南<精通Python自然语言处理>,介绍了如何用Python实现各种NLP任务,以帮助 ...
Python 自然语言处理（1）中文分词技术
中文分词技术中文自动分词可主要归纳为“规则分词”“统计分词”和“混合分词”,规则分词主要是通过人工设立词库,按照一定方式进行匹配切分,实现简单高效,但对新词很难进行处理,统计分词能够较好应对新词发现 ...
Python自然语言处理（1）：初识NLP
由于我们从美国回来就是想把医学数据和医学人工智能的事认真做起来,所以我们选择了比较扎实的解决方法,想快速出成果的请绕道.我们的一些解决方法是:1.整合公开的所有医学词典,尽可能包含更多的标准医学词汇: ...
Python自然语言处理学习——jieba分词
jieba——“结巴”中文分词是sunjunyi开发的一款Python中文分词组件,可以在Github上查看jieba项目. 要使用jieba中文分词,首先需要安装jieba中文分词,作者给出了如下的 ...
基于规则的中文分词 - NLP中文篇
之前在其他博客文章有提到如何对英文进行分词,也说后续会增加解释我们中文是如何分词的,我们都知道英文或者其他国家或者地区一些语言文字是词与词之间有空格(分隔符),这样子分词处理起来其实是要相对容易很多, ...
Python自然语言处理工具小结
Python自然语言处理工具小结作者:白宁超 2016年11月21日21:45:26 目录 [Python NLP]干货!详述Python NLTK下如何使用stanford NLP工具包(1) [ ...
hanlp的基本使用--python(自然语言处理)
hanlp拥有:中文分词.命名实体识别.摘要关键字.依存句法分析.简繁拼音转换.智能推荐. 这里主要介绍一下hanlp的中文分词.命名实体识别.依存句法分析,这里就不介绍具体的hanlp的安装了,百度 ...
转-Python自然语言处理入门
Python自然语言处理入门原文链接:http://python.jobbole.com/85094/ 分享到:20 本文由伯乐在线 - Ree Ray 翻译,renlytime 校稿.未经许 ...
国内外自然语言处理(NLP)研究组
国内外自然语言处理(NLP)研究组 *博客地址 http://blog.csdn.net/wangxinginnlp/article/details/44890553 *排名不分先后.收集不全,欢迎 ...

随机推荐

PostgreSQL 删除表格
PostgreSQL 使用 DROP TABLE 语句来删除表格,包含表格数据.规则.触发器等,所以删除表格要慎重,删除后所有信息就消失了. 语法 DROP TABLE 语法格式如下: DROP TA ...
Docker镜像仓库Harbor之Swagger REST API整合配置
转载自:https://cloud.tencent.com/developer/article/1010618 1.Swagger 介绍 Swagger 是一个规范和完整的框架,用于生成.描述.调用和 ...
Visual Studio 2022 开发 STM32 单片机 - 环境搭建点亮LED灯
安装VS2022社区版软件选择基础的功能就好安装VisualGDB软件(CSDN资源) 按照提示一步一步安装就好 VisualGDB激活软件(CSDN资源) 将如下软件放在VisualGDB的安装 ...
Python中class内置方法__init__与__new__作用与区别探究
背景最近尝试了解Django中ORM实现的原理,发现其用到了metaclass(元类)这一技术,进一步又涉及到Python class中有两个特殊内置方法__init__与__new__,决定先尝试 ...
Jhipster自动生成实体类等文件
官网:https://www.jhipster.tech/cn/ 准备工作安装node(npm) 准备jdl文件安装Jhipster:npm install -g generator-jhipst ...
独辟蹊径：逆推Krpano切图算法，实现在浏览器切多层级瓦片图
前言此文我首发于CSDN(所以里面的图片有它的水印) 趁着隔离梳理一下之前做的一个有用的功能:在浏览器中去切割多分辨率瓦片图这是一个有趣的过程,跟我一起探索吧阅读本文需具备前置知识:对krpan ...
图片 css剪切，等比例缩放
object-fit: cover; .img1 {//自定义图片宽高,并且等比例缩放 width: 200px; height: 400px; object-fit: cover; }
PHP全栈开发（四）: HTML 学习（1.基础标签+表格标签）
简单的学习一下HTML 学习HTML采用在www.runoob.com上学习的方法. 而且该网站还提供在线编辑器. 然后HTML编辑器使用Notepad++ 记得上Emmet的官网http://emm ...
HDU4734 F(x) （数位DP）
(如此简短的题目给人一种莫名的压迫感......) 题目中定义一个数的权值求解函数:F(x) = An * 2n-1 + An-1 * 2n-2 + ... + A2 * 2 + A1 * 1. 观察 ...
Dubbo 02: 直连式
直连式需要用到两个相互独立的maven的web项目项目1:o1-link-userservice-provider 作为服务的提供者项目2:o2-link-consumer 作为使用服务的消费者 ...

python自然语言处理（NLP）1------中文分词1，基于规则的中文分词方法

python中文分词方法之基于规则的中文分词

目录

常见中文分词方法

推荐中文分词工具

参考链接

一、四种常见的中文分词方法：