HanLP-实词分词器详解

在进行文本分类（非情感分类）时，我们经常只保留实词（名、动、形）等词，为了文本分类的分词方便，HanLP专门提供了实词分词器类NotionalTokenizer，同时在分类数据集加载处理时，默认使用了NotionalTokenizer分词器。

在HanLPJava版代码库中可以查看下边的文件中的函数

1、AbstractDataSet.java文件中的AbstractDataSet方法

2、HanLPTokenizer.java文件中的segment方法

3、NotionalTokenizer.java文件中的segment方法

简单说明一下NotionalTokenizer类实现

1、初始化了一个维特比分词器实例（最短路径方法，用viterbi思想实现）

2、用CoreStopWordDictionary类的shouldInclude方法对维特比分词结果进行过滤，该方法只保留属于名词、动词、副词、形容词并且不在停用词表中的词。详见CoreStopWordDictionary.java文件中的shouldInclude(Term)方法。

对于PyHanLP的调用方法可以参考

# # -*- coding:utf-8 -*-

# Author：wancong

# Date: 2018-04-30

from pyhanlp import *

def demo_notional_tokenizer():

""" 演示自动去除停用词、自动断句的分词器

>>> demo_notional_tokenizer()

[小区/n, 居民/n, 反对/v, 喂养/v, 流浪猫/nz, 居民/n, 赞成/v, 喂养/v, 小宝贝/nz]

[小区/n, 居民/n, 反对/v, 喂养/v, 流浪猫/nz]

[居民/n, 赞成/v, 喂养/v, 小宝贝/nz]

"""

Term =JClass("com.hankcs.hanlp.seg.common.Term")

NotionalTokenizer = JClass("com.hankcs.hanlp.tokenizer.NotionalTokenizer")

text = "小区居民有的反对喂养流浪猫，而有的居民却赞成喂养这些小宝贝"

print(NotionalTokenizer.segment(text))

for sentence in NotionalTokenizer.seg2sentence(text):

print(sentence)

if __name__ == "__main__":

import doctest

doctest.testmod(verbose=True)

HanLP-实词分词器详解的更多相关文章

Lucene系列三：Lucene分词器详解、实现自己的一个分词器
一.Lucene分词器详解 1. Lucene-分词器API (1)org.apache.lucene.analysi.Analyzer 分析器,分词器组件的核心API,它的职责:构建真正对文本进行分 ...
自然语言处理之中文分词器－jieba分词器详解及python实战
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...
学习笔记（三）--Lucene分词器详解
Lucene-分词器API org.apache.lucene.analysi.Analyzer 分析器,分词器组件的核心API,它的职责:构建真正对文本进行分词处理的TokenStream(分词处理 ...
HanLP 关键词提取算法分析详解
HanLP 关键词提取算法分析详解 l 参考论文:<TextRank: Bringing Order into Texts> l TextRank算法提取关键词的Java实现 l Text ...
Solr系列五：solr搜索详解（solr搜索流程介绍、查询语法及解析器详解）
一.solr搜索流程介绍 1. 前面我们已经学习过Lucene搜索的流程,让我们再来回顾一下流程说明: 首先获取用户输入的查询串,使用查询解析器QueryParser解析查询串生成查询对象Query ...
GLSL-几何着色器详解跟实例（GS：Geometry Shader）[转]
[OpenGL4.0]GLSL-几何着色器详解和实例(GS:Geometry Shader) 一.什么是几何着色器(GS:Geometry Shader) Input Assembler(IA)从顶点 ...
C编译器、链接器、加载器详解
摘自http://blog.csdn.net/zzxian/article/details/16820035 C编译器.链接器.加载器详解一.概述 C语言的编译链接过程要把我们编写的一个c程序(源代 ...
Java类加载器详解
title: Java类加载器详解date: 2015-10-20 18:16:52tags: JVM--- ## JVM三种类型的类加载器- 我们首先看一下JVM预定义的三种类型类加载器,当一个 J ...
（转）Elasticsearch 5 Ik+pinyin分词配置详解
今天以这篇文章结束同城旅游网的面试,正好面试官也问到站内检索,可以尝试一下这篇文章介绍的方法.Elasticsearch 5 Ik+pinyin分词配置详解

随机推荐

virtualbox使用xshell配置以及共享文件夹设置
1.virtualbox NAT网络配置后,host xshell访问设置映射登陆: ssh 127.0.0.1 2.virtualbox共享文件(host---->guest) 1.安装增 ...
27.Python列表（list）、元组（tuple）、字典（dict）和集合（set）详解
本章将会介绍 Python 内置的四种常用数据结构:列表(list).元组(tuple).字典(dict)以及集合(set). 这四种数据结构一但都可用于保存多个数据项,这对于编程而言是非常重要的,因 ...
ansible模块文件操作
Ansible常用模块文件操作 [root@tiandong etc]# ansible-doc -l 列出ansible所支持的模块 [root@tiandong ~]# ansible-doc ...
代码审计之seacms v6.54 前台Getshell 复现分析
1.环境: php5.5.38+apache+seacms v6.54 上一篇文章针对seacms v6.45 进行了分析,官方给出针对修复前台geishell提供的方法为增加: $order = ( ...
laravel中跟据某个特定顺序去排序查出来的数据:FIND_IN_SET
//返回有顺序的客户id $customer_ids = $customer->bespeakTime($uid); $res = Customer::with('customer_indust ...
vue 指示点的疑点拓展
1. 为什么 vue 组件中的 data 是一个函数 1. 为了保证组件的独立性和可复用性,data 是一个函数,组件实例的时候,这个函数将会被调用,返回一个对象,计算机会给这个对象分配一个内存地址, ...
thinkpad T480安装WIN7
本文转载自http://www.dnxtc.net/zixun/zhuangjijiaocheng/2018-12-01/3256.html 防止忘记特别把资源集中一下新买的笔记本预装的WIN10 ...
EBI架构 VS. MVC
和 MVC 模式中的 Model 代表着整个后端(包括所有实体.服务和它们之间的关系在内的一切)一样,EBI 模式将边界看作是和外部世界的完整连接,而不仅仅是一个视图.一个控制器或是一个接口(这里指的 ...
Win10 的微软输入法输入稍快竟然会导致死机
一周前,新装机器一次,竟然死机两三次,多发生在敲字时,最近逐步排查发现的这个问题,查阅了一下网上方案,果断采用了第三方输入法,至今没再死机过. 不过第三方输入法也不安分,是不是推送点头条新闻过来,和驱 ...
SSH开发中使用超链接到action 其excute方法会被执行两次 actual row count: 0; expected: 1
由于执行两次excute,所以在做删除操作的时候会出现 Batch update returned unexpected row count from update [0]; actual row c ...

HanLP-实词分词器详解

HanLP-实词分词器详解的更多相关文章

随机推荐

热门专题