nlp词性标注

与分词函数不同，jieba库和pyltp库词性标注函数上形式相差极大。

jieba的词性标注函数与分词函数相近，jieba.posseg.cut(sentence,HMM=True)函数有两个参数，sentence是一段文本。

pyltp的词性标注函数pyltp.Postagger.postag(words)有一个参数，words是分词模块的返回值，或者是Python原生的list类型。

nltk中的词性标注函数与pyltp的相似，也是输入list类型。nltk.pos_tag(tokens,tagset=None,lang='eng')中，tokens是list类型的词组；tagset是指定的标注集，有“universal”“wsj”和“brown”，不同的标注集标识词性的tag不同；lang是语言类型，目前支持较好的有“eng”和“rus”，对“zho”的支持还有待改进。

#coding:utf-8

import os

import nltk

import jieba

import jieba.posseg as pseg

from pyltp import Segmentor,Postagger

text='你是我的眼'

#jieba分词同时标注词性

segs=pseg.cut(text)

for word,pos in segs:

    print('%s %s'%(word,pos))

#pyltp以list为参数标注词性

data_dir=r"D:\ltp_data"

segmentor=Segmentor()

segmentor.load(os.path.join(data_dir,'cws.model'))

ptgger=Postagger()

ptgger.load(os.path.join(data_dir,'pos.model'))

segs2=segmentor.segment(text)

segs2=list(segs2)

poses2=ptgger.postag(segs2)

for i in range(len(segs2)):

    print('%s %s'%(segs2[i],poses2[i]))

segmentor.release()

ptgger.release()

segs3=nltk.pos_tag(segs2,lang='zho')

for word,pos in segs3:

    print('%s %s'%(word,pos))

运行结果如下：

你 r

是 v

我 r

的 uj

眼 n

你 r

是 v

我 r

的 u

眼 n

你 JJ

是 NNP

我 NNP

的 NNP

眼 NN

nlp词性标注的更多相关文章

python之NLP词性标注
1.知识点包括中文和英文的词性标注主要使用的库是nltk和jiaba 2.代码 # coding = utf-8 import nltk from nltk.corpus import stopwo ...
NLP自然语言处理 jieba中文分词,关键词提取,词性标注,并行分词,起止位置,文本挖掘,NLP WordEmbedding的概念和实现
1. NLP 走近自然语言处理概念 Natural Language Processing/Understanding,自然语言处理/理解日常对话.办公写作.上网浏览希望机器能像人一样去理解,以 ...
【NLP学习其四】如何构建自己用于训练的数据集？什么是词性标注？
数据集与词性标注数据集是NLP中的重要一环. 但是提到数据集,很多人的第一个想法可能是:"这玩意从网上下载就好了,不用管". 真的不用管?最开始我也是这么认为的于是我直奔CoN ...
nlp 总结分词，词义消歧，词性标注，命名体识别，依存句法分析，语义角色标注
分词中文分词 (Word Segmentation, WS) 指的是将汉字序列切分成词序列. 因为在汉语中,词是承载语义的最基本的单元.分词是信息检索.文本分类.情感分析等多项中文自然语言处理任务的 ...
NLP（五）词性标注和文法
NLTK内置词性标注器用nltk.pos_tag()函数进行词性标注 import nltk nltk.download('averaged_perceptron_tagger') simpleSe ...
【NLP】暑假课作业3 - 词性标注（简单词频概率统计）
作业任务: 使用98年人民日报语料库进行词性标注训练及测试. 作业输入: 98年人民日报语料库(1998-01-105-带音.txt),用80%的数据作为训练集,20%的数据作为验证集. 运行环境: ...
【NLP】干货！Python NLTK结合stanford NLP工具包进行文本处理
干货!详述Python NLTK下如何使用stanford NLP工具包作者:白宁超 2016年11月6日19:28:43 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的 ...
【NLP】十分钟快览自然语言处理学习总结
十分钟学习自然语言处理概述作者:白宁超 2016年9月23日00:24:12 摘要:近来自然语言处理行业发展朝气蓬勃,市场应用广泛.笔者学习以来写了不少文章,文章深度层次不一,今天因为某种需要,将文 ...
【NLP】蓦然回首：谈谈学习模型的评估系列文章（一）
统计角度窥视模型概念作者:白宁超 2016年7月18日17:18:43 摘要:写本文的初衷源于基于HMM模型序列标注的一个实验,实验完成之后,迫切想知道采用的序列标注模型的好坏,有哪些指标可以度量. ...

随机推荐

一个Java程序猿眼中的前后端分离以及Vue.js入门
松哥的书里边,其实有涉及到 Vue,但是并没有详细说过,原因很简单,Vue 的资料都是中文的,把 Vue.js 官网的资料从头到尾浏览一遍该懂的基本就懂了,个人感觉这个是最好的 Vue.js 学习资料 ...
基于 websocket 实现的 im 实时通讯案例
分享利用 redis 订阅与发布特性,巧妙的现实高性能im系统.为表诚意,先贴源码地址:https://github.com/2881099/im 下载源码后的运行方法: 运行环境:.NETCore ...
OAuth2.0记录
阮一峰老师讲解OAuth2.0 http://www.ruanyifeng.com/blog/2014/05/oauth_2_0.html 举例详解: https://www.cnblogs.com/ ...
java监听器简述
监听器的概念所谓监听器就是对内置对象的状态或者属性变化进行监听并且做出反应的特殊servlet,并且也需要在web.xml文件中进行相关配置. 内置对象的状态变化:初始化和销毁,也就是说当内置对象初 ...
给WEB初学者一些有效率的建议
因为IT互联网发展的非常迅速,而web前端这块很火,目前工资水平给的很高,在市场上也是非常的稀缺人才,现在各个行业转行做web前端的很多,今天给大家一些建议,希望新手少走点弯路吧! 建议一:有一个比较 ...
使用kubeadm平滑地升级kubenetes集群(v1.10.2到v1.10.3)
写在前面 kubernetes是目前最炙手火热的容器管理.调度.编排平台,不仅拥有全面的生态系统,而且还开源.开放自治,谁贡献的多,谁的话语权就大,云提供商都有专门的工程师来从事kubernetes开 ...
JavaScript 执行机制
一.宏任务与微任务 macro-task(宏任务):包括整体代码script,setTimeout,setInterval micro-task(微任务):Promise,process.nextTi ...
Base64编码的原理
Base64是一种基于64个可打印字符来表示二进制数据的表示方法.由于 2的6次方是64,所以每6个比特为一个单元,对应某个可打印字符.3个字节有24个比特,对应于4个Base64单元,即3个字节可由 ...
轻量级数据库Sqlite的使用
SqLite是什么? SQLite是一个进程内的库,实现了自给自足的.无服务器的.零配置的.事务性的 SQL 数据库引擎.它是一个零配置的数据库,这意味着与其他数据库一样,您不需要在系统中配置. 就像 ...
springboot~@Valid注解对嵌套类型的校验
@Valid注解可以实现数据的验证,你可以定义实体,在实体的属性上添加校验规则,而在API接收数据时添加@valid关键字,这时你的实体将会开启一个校验的功能,具体的代码如下,是最基本的应用: 实体: ...

nlp词性标注

nlp词性标注

nlp词性标注的更多相关文章

随机推荐

热门专题