常用中文分词工具分词&词性标注简单应用（jieba、pyhanlp、pkuseg、foolnltk、thulac、snownlp、nlpir）

1、jieba分词&词性标注

import jieba

import jieba.posseg as posseg

txt1 ='''

文本一：

人民网华盛顿3月28日电（记者郑琪）据美国约翰斯·霍普金斯大学疫情实时监测系统显示，截至美东时间3月28日下午6时，

美国已经至少有新冠病毒感染病例121117例，其中包括死亡病例2010例。

与大约24小时前相比，美国确诊病例至少增加了20400例，死亡病例至少增加了466例。

目前美国疫情最为严重的仍是纽约州，共有确诊病例至少52410例。此外，新泽西州有确诊病例11124例，加利福尼亚州有5065例，

密歇根州有4650例，马塞诸塞州有4257例，华盛顿州有4008例。

'''

# 精确模式

seg_list = jieba.cut(txt1,cut_all=False)

# seg_list = jieba.cut_for_search(txt1)

print("jieba分词：" + "/ ".join(seg_list)) # 精确模式

list = posseg.cut(txt1)

tag_list =[]

for tag in list :

    pos_word = {  }

    pos_word[1] = tag.word

    pos_word[2] = tag.flag

    tag_list.append(pos_word)

print('jieba词性标注：',tag_list)

结果展示：

jieba分词：

/ 文本/ 一/ ：/

/ 人民网/ 华盛顿/ 3/ 月/ 28/ 日电/ （/ 记者/ 郑琪/ ）/ 据/ 美国/ 约翰斯/ ·/ 霍普金斯大学/ 疫情/ 实时/ 监测/ 系统/ 显示/ ，/ 截至/ 美/ 东/ 时间/ 3/ 月/ 28/ 日/ 下午/ 6/ 时/ ，/

/ 美国/ 已经/ 至少/ 有/ 新冠/ 病毒感染/ 病例/ 121117/ 例/ ，/ 其中/ 包括/ 死亡/ 病例/ 2010/ 例/ 。/

/ 与/ 大约/ 24/ 小时/ 前/ 相比/ ，/ 美国/ 确诊/ 病例/ 至少/ 增加/ 了/ 20400/ 例/ ，/ 死亡/ 病例/ 至少/ 增加/ 了/ 466/ 例/ 。/

/ 目前/ 美国/ 疫情/ 最为/ 严重/ 的/ 仍/ 是/ 纽约州/ ，/ 共有/ 确诊/ 病例/ 至少/ 52410/ 例/ 。/ 此外/ ，/ 新泽西州/ 有/ 确诊/ 病例/ 11124/ 例/ ，/ 加利福尼亚州/ 有/ 5065/ 例/ ，/

/ 密歇根州/ 有/ 4650/ 例/ ，/ 马塞诸塞/ 州/ 有/ 4257/ 例/ ，/ 华盛顿州/ 有/ 4008/ 例/ 。/ 

jieba词性标注： [{1: '\n', 2: 'x'}, {1: '文本', 2: 'n'}, {1: '一', 2: 'm'}, {1: '：', 2: 'x'}, {1: '\n', 2: 'x'}, {1: '人民网', 2: 'n'}, {1: '华盛顿', 2: 'ns'}, {1: '', 2: 'm'}, {1: '月', 2: 'm'}, {1: '', 2: 'm'}, {1: '日电', 2: 'j'}, {1: '（', 2: 'x'}, {1: '记者', 2: 'n'}, {1: '郑琪', 2: 'nr'}, {1: '）', 2: 'x'}, {1: '据', 2: 'p'}, {1: '美国', 2: 'ns'}, {1: '约翰斯', 2: 'nrt'}, {1: '·', 2: 'x'}, {1: '霍普金斯大学', 2: 'nt'}, {1: '疫情', 2: 'n'}, {1: '实时', 2: 'd'}, {1: '监测', 2: 'vn'}, {1: '系统', 2: 'n'}, {1: '显示', 2: 'v'}, {1: '，', 2: 'x'}, {1: '截至', 2: 'v'}, {1: '美', 2: 'ns'}, {1: '东', 2: 'ns'}, {1: '时间', 2: 'n'}, {1: '', 2: 'm'}, {1: '月', 2: 'm'}, {1: '', 2: 'm'}, {1: '日', 2: 'm'}, {1: '下午', 2: 't'}, {1: '', 2: 'm'}, {1: '时', 2: 'n'}, {1: '，', 2: 'x'}, {1: '\n', 2: 'x'}, {1: '美国', 2: 'ns'}, {1: '已经', 2: 'd'}, {1: '至少', 2: 'd'}, {1: '有', 2: 'v'}, {1: '新', 2: 'a'}, {1: '冠', 2: 'n'}, {1: '病毒感染', 2: 'n'}, {1: '病例', 2: 'n'}, {1: '', 2: 'm'}, {1: '例', 2: 'v'}, {1: '，', 2: 'x'}, {1: '其中', 2: 'r'}, {1: '包括', 2: 'v'}, {1: '死亡', 2: 'v'}, {1: '病例', 2: 'n'}, {1: '', 2: 'm'}, {1: '例', 2: 'v'}, {1: '。', 2: 'x'}, {1: '\n', 2: 'x'}, {1: '与', 2: 'p'}, {1: '大约', 2: 'd'}, {1: '', 2: 'm'}, {1: '小时', 2: 'n'}, {1: '前', 2: 'f'}, {1: '相比', 2: 'v'}, {1: '，', 2: 'x'}, {1: '美国', 2: 'ns'}, {1: '确诊', 2: 'v'}, {1: '病例', 2: 'n'}, {1: '至少', 2: 'd'}, {1: '增加', 2: 'v'}, {1: '了', 2: 'ul'}, {1: '', 2: 'm'}, {1: '例', 2: 'v'}, {1: '，', 2: 'x'}, {1: '死亡', 2: 'v'}, {1: '病例', 2: 'n'}, {1: '至少', 2: 'd'}, {1: '增加', 2: 'v'}, {1: '了', 2: 'ul'}, {1: '', 2: 'm'}, {1: '例', 2: 'v'}, {1: '。', 2: 'x'}, {1: '\n', 2: 'x'}, {1: '目前', 2: 't'}, {1: '美国', 2: 'ns'}, {1: '疫情', 2: 'n'}, {1: '最为', 2: 'd'}, {1: '严重', 2: 'a'}, {1: '的', 2: 'uj'}, {1: '仍', 2: 'd'}, {1: '是', 2: 'v'}, {1: '纽约州', 2: 'ns'}, {1: '，', 2: 'x'}, {1: '共有', 2: 'v'}, {1: '确诊', 2: 'v'}, {1: '病例', 2: 'n'}, {1: '至少', 2: 'd'}, {1: '', 2: 'm'}, {1: '例', 2: 'v'}, {1: '。', 2: 'x'}, {1: '此外', 2: 'c'}, {1: '，', 2: 'x'}, {1: '新泽西州', 2: 'ns'}, {1: '有', 2: 'v'}, {1: '确诊', 2: 'v'}, {1: '病例', 2: 'n'}, {1: '', 2: 'm'}, {1: '例', 2: 'v'}, {1: '，', 2: 'x'}, {1: '加利福尼亚州', 2: 'ns'}, {1: '有', 2: 'v'}, {1: '', 2: 'm'}, {1: '例', 2: 'v'}, {1: '，', 2: 'x'}, {1: '\n', 2: 'x'}, {1: '密歇根州', 2: 'ns'}, {1: '有', 2: 'v'}, {1: '', 2: 'm'}, {1: '例', 2: 'v'}, {1: '，', 2: 'x'}, {1: '马塞诸塞', 2: 'nr'}, {1: '州', 2: 'n'}, {1: '有', 2: 'v'}, {1: '', 2: 'm'}, {1: '例', 2: 'v'}, {1: '，', 2: 'x'}, {1: '华盛顿州', 2: 'ns'}, {1: '有', 2: 'v'}, {1: '', 2: 'm'}, {1: '例', 2: 'v'}, {1: '。', 2: 'x'}, {1: '\n', 2: 'x'}]

2、pyhanlp分词&词性标注

# -*- coding: utf-8 -*-

from pyhanlp import*

txt1 ='''

文本一：

人民网华盛顿3月28日电（记者郑琪）据美国约翰斯·霍普金斯大学疫情实时监测系统显示，截至美东时间3月28日下午6时，

美国已经至少有新冠病毒感染病例121117例，其中包括死亡病例2010例。

与大约24小时前相比，美国确诊病例至少增加了20400例，死亡病例至少增加了466例。

目前美国疫情最为严重的仍是纽约州，共有确诊病例至少52410例。此外，新泽西州有确诊病例11124例，加利福尼亚州有5065例，

密歇根州有4650例，马塞诸塞州有4257例，华盛顿州有4008例。

'''

tag_word = HanLP.segment(txt1)

print('hanlp词性标注：',tag_word)

结果展示：

hanlp词性标注： [

/w, 文本/n, 一/m, ：/w,

/w, 人民网/nz, 华盛顿/nrf, 3月/t, 28/m, 日电/j, （/w, 记者/nnt, 郑琪/nr, ）/w, 据/p, 美国/nsf, 约翰斯·/nrf, 霍普金斯大学/ntu, 疫情/n, 实时/n, 监测/vn, 系统/n, 显示/v, ，/w, 截至/v, 美东/ns, 时间/n, 3月/t, 28/m, 日/b, 下午/t, 6/m, 时/qt, ，/w,

/w, 美国/nsf, 已经/d, 至少/d, 有/vyou, 新/a, 冠/ng, 病毒感染/nz, 病例/n, 121117/m, 例/n, ，/w, 其中/rz, 包括/v, 死亡/vi, 病例/n, 2010/m, 例/n, 。/w,

/w, 与/cc, 大约/d, 24/m, 小时/n, 前/f, 相比/vi, ，/w, 美国/nsf, 确诊/v, 病例/n, 至少/d, 增加/v, 了/ule, 20400/m, 例/n, ，/w, 死亡/vi, 病例/n, 至少/d, 增加/v, 了/ule, 466/m, 例/n, 。/w,

/w, 目前/t, 美国/nsf, 疫情/n, 最为/d, 严重/a, 的/ude1, 仍/d, 是/vshi, 纽约/nsf, 州/n, ，/w, 共有/v, 确诊/v, 病例/n, 至少/d, 52410/m, 例/n, 。/w, 此外/c, ，/w, 新泽西州/nsf, 有/vyou, 确诊/v, 病例/n, 11124/m, 例/n, ，/w, 加利福尼亚州/nsf, 有/vyou, 5065/m, 例/n, ，/w,

/w, 密歇根州/nsf, 有/vyou, 4650/m, 例/n, ，/w, 马塞诸塞/nz, 州/n, 有/vyou, 4257/m, 例/n, ，/w, 华盛顿州/nsf, 有/vyou, 4008/m, 例/n, 。/w,

/w]

3、pkuseg分词&词性标注

# -*- coding: utf-8 -*-

import pkuseg

txt1 ='''

文本一：

人民网华盛顿3月28日电（记者郑琪）据美国约翰斯·霍普金斯大学疫情实时监测系统显示，截至美东时间3月28日下午6时，

美国已经至少有新冠病毒感染病例121117例，其中包括死亡病例2010例。

与大约24小时前相比，美国确诊病例至少增加了20400例，死亡病例至少增加了466例。

目前美国疫情最为严重的仍是纽约州，共有确诊病例至少52410例。此外，新泽西州有确诊病例11124例，加利福尼亚州有5065例，

密歇根州有4650例，马塞诸塞州有4257例，华盛顿州有4008例。

'''

#postag=False表示不词性标注，=True表示进行词性标注

seg = pkuseg.pkuseg(model_name='news',postag= False)

sge_word = seg.cut(txt1)

print('pkuseg分词：',sge_word)

tag = pkuseg.pkuseg(model_name='news',postag= True)

tag_word = tag.cut(txt1)

print('pkuseg词性标注：',tag_word)

pkuseg分词： ['文本', '一', '：', '人民网', '华盛顿', '3月28日', '电', '（', '记者', '郑琪', '）', '据', '美国', '约翰斯·霍普金斯大学', '疫情', '实时', '监测', '系统', '显示', '，', '截至', '美东时间3月28日', '下午6时', '，', '美国', '已经', '至少', '有', '新', '冠', '病毒', '感染', '病例', '121117例', '，', '其中', '包括', '死亡', '病例', '2010例', '。', '与', '大约', '24小时', '前', '相比', '，', '美国', '确诊', '病例', '至少', '增加', '了', '20400例', '，', '死亡', '病例', '至少', '增加', '了', '466例', '。', '目前', '美国', '疫情', '最为', '严重', '的', '仍是', '纽约州', '，', '共有', '确诊', '病例', '至少', '52410例', '。', '此外', '，', '新泽西州', '有', '确诊', '病例', '11124例', '，', '加利福尼亚州', '有', '5065例', '，', '密歇根州', '有', '4650例', '，', '马塞诸塞州', '有', '4257例', '，', '华盛顿州', '有', '4008例', '。']

pkuseg词性标注： [('文本', 'n'), ('一', 'm'), ('：', 'w'), ('人民网', 'n'), ('华盛顿', 'ns'), ('3月28日', 'n'), ('电', 'n'), ('（', 'w'), ('记者', 'n'), ('郑琪', 'nr'), ('）', 'w'), ('据', 'p'), ('美国', 'ns'), ('约翰斯·霍普金斯大学', 'n'), ('疫情', 'n'), ('实时', 'n'), ('监测', 'vn'), ('系统', 'n'), ('显示', 'v'), ('，', 'w'), ('截至', 'v'), ('美东时间3月28日', 't'), ('下午6时', 't'), ('，', 'w'), ('美国', 'ns'), ('已经', 'd'), ('至少', 'd'), ('有', 'v'), ('新', 'a'), ('冠', 'n'), ('病毒', 'n'), ('感染', 'v'), ('病例', 'n'), ('121117例', 'n'), ('，', 'w'), ('其中', 'r'), ('包括', 'v'), ('死亡', 'v'), ('病例', 'n'), ('2010例', 'n'), ('。', 'w'), ('与', 'p'), ('大约', 'd'), ('24小时', 'v'), ('前', 'f'), ('相比', 'v'), ('，', 'w'), ('美国', 'ns'), ('确诊', 'v'), ('病例', 'n'), ('至少', 'd'), ('增加', 'v'), ('了', 'u'), ('20400例', 'n'), ('，', 'w'), ('死亡', 'v'), ('病例', 'n'), ('至少', 'd'), ('增加', 'v'), ('了', 'u'), ('466例', 'n'), ('。', 'w'), ('目前', 't'), ('美国', 'ns'), ('疫情', 'n'), ('最为', 'd'), ('严重', 'a'), ('的', 'u'), ('仍是', 'd'), ('纽约州', 'ns'), ('，', 'w'), ('共有', 'v'), ('确诊', 'v'), ('病例', 'n'), ('至少', 'd'), ('52410例', 'v'), ('。', 'w'), ('此外', 'c'), ('，', 'w'), ('新泽西州', 'ns'), ('有', 'v'), ('确诊', 'v'), ('病例', 'n'), ('11124例', 'n'), ('，', 'w'), ('加利福尼亚州', 'ns'), ('有', 'v'), ('5065例', 'n'), ('，', 'w'), ('密歇根州', 'ns'), ('有', 'v'), ('4650例', 'n'), ('，', 'w'), ('马塞诸塞州', 'ns'), ('有', 'v'), ('4257例', 'n'), ('，', 'w'), ('华盛顿州', 'ns'), ('有', 'v'), ('4008例', 'n'), ('。', 'w')]

4、foolnltk分词&词性标注

# -*- coding: utf-8 -*-

import fool

txt1 ='''

文本一：

人民网华盛顿3月28日电（记者郑琪）据美国约翰斯·霍普金斯大学疫情实时监测系统显示，截至美东时间3月28日下午6时，

美国已经至少有新冠病毒感染病例121117例，其中包括死亡病例2010例。

与大约24小时前相比，美国确诊病例至少增加了20400例，死亡病例至少增加了466例。

目前美国疫情最为严重的仍是纽约州，共有确诊病例至少52410例。此外，新泽西州有确诊病例11124例，加利福尼亚州有5065例，

密歇根州有4650例，马塞诸塞州有4257例，华盛顿州有4008例。

'''

#cut函数分词

cut_word = fool.cut(txt1)

print('foolnltk分词:',cut_word)

#pos_cut函数词性标注

tag_word = fool.pos_cut(txt1)

print('foolnltk词性标注：',tag_word)

#analysis函数命名实体识别

结果展示：

foolnltk分词: [['\n', '文本', '一', '：', '\n', '人民网', '华盛顿', '3月', '28日', '电', '（', '记者', '郑琪', '）', '据', '美国', '约翰斯·霍普金斯', '大学', '疫情', '实时', '监测', '系统', '显示', '，', '截至', '美东', '时间', '3月', '28日', '下午', '6时', '，', '\n', '美国', '已经', '至少', '有', '新冠', '病毒', '感染', '病例', '', '例', '，', '其中', '包括', '死亡', '病例', '', '例', '。', '\n', '与', '大约', '', '小时', '前', '相比', '，', '美国', '确诊', '病例', '至少', '增加', '了', '', '例', '，', '死亡', '病例', '至少', '增加', '了', '', '例', '。', '\n', '目前', '美国', '疫情', '最为', '严重', '的', '仍', '是', '纽约州', '，', '共有', '确诊', '病例', '至少', '', '例', '。', '此外', '，', '新泽西州', '有', '确诊', '病例', '', '例', '，', '加利福尼亚州', '有', '', '例', '，', '\n', '密歇根州', '有', '', '例', '，', '马塞', '诸塞州', '有', '', '例', '，', '华盛', '顿州', '有', '', '例', '。', '\n']]

2020-04-01 19:45:50.693558: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1159] Device interconnect StreamExecutor with strength 1 edge matrix:

2020-04-01 19:45:50.693761: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1165]

foolnltk词性标注： [[('\n', 'ns'), ('文本', 'n'), ('一', 'm'), ('：', 'wm'), ('\n', 'nx'), ('人民网', 'n'), ('华盛顿', 'ns'), ('3月', 't'), ('28日', 't'), ('电', 'n'), ('（', 'wkz'), ('记者', 'n'), ('郑琪', 'nr'), ('）', 'wky'), ('据', 'p'), ('美国', 'ns'), ('约翰斯·霍普金斯', 'ns'), ('大学', 'n'), ('疫情', 'n'), ('实时', 'n'), ('监测', 'n'), ('系统', 'n'), ('显示', 'v'), ('，', 'wd'), ('截至', 'v'), ('美东', 'n'), ('时间', 'n'), ('3月', 't'), ('28日', 't'), ('下午', 't'), ('6时', 't'), ('，', 'wd'), ('\n', 'ns'), ('美国', 'ns'), ('已经', 'd'), ('至少', 'd'), ('有', 'vyou'), ('新冠', 'nz'), ('病毒', 'n'), ('感染', 'v'), ('病例', 'n'), ('', 'm'), ('例', 'q'), ('，', 'wd'), ('其中', 'r'), ('包括', 'v'), ('死亡', 'n'), ('病例', 'n'), ('', 'm'), ('例', 'q'), ('。', 'wj'), ('\n', 'n'), ('与', 'c'), ('大约', 'd'), ('', 'm'), ('小时', 'n'), ('前', 'f'), ('相比', 'vi'), ('，', 'wd'), ('美国', 'ns'), ('确诊', 'v'), ('病例', 'n'), ('至少', 'd'), ('增加', 'v'), ('了', 'y'), ('', 'n'), ('例', 'n'), ('，', 'wd'), ('死亡', 'n'), ('病例', 'n'), ('至少', 'd'), ('增加', 'v'), ('了', 'y'), ('', 'ns'), ('例', 'n'), ('。', 'wj'), ('\n', 'n'), ('目前', 't'), ('美国', 'ns'), ('疫情', 'n'), ('最为', 'd'), ('严重', 'a'), ('的', 'ude'), ('仍', 'd'), ('是', 'vshi'), ('纽约州', 'n'), ('，', 'wd'), ('共有', 'v'), ('确诊', 'v'), ('病例', 'n'), ('至少', 'd'), ('', 'v'), ('例', 'n'), ('。', 'wj'), ('此外', 'c'), ('，', 'wd'), ('新泽西州', 'ns'), ('有', 'vyou'), ('确诊', 'v'), ('病例', 'n'), ('', 'n'), ('例', 'n'), ('，', 'wd'), ('加利福尼亚州', 'ns'), ('有', 'vyou'), ('', 'm'), ('例', 'q'), ('，', 'wd'), ('\n', 'ns'), ('密歇根州', 'ns'), ('有', 'vyou'), ('', 'm'), ('例', 'q'), ('，', 'wd'), ('马塞', 'ns'), ('诸塞州', 'ns'), ('有', 'vyou'), ('', 'm'), ('例', 'q'), ('，', 'wd'), ('华盛', 'nz'), ('顿州', 'n'), ('有', 'vyou'), ('', 'm'), ('例', 'q'), ('。', 'wj'), ('\n', 'm')]]

5、thulac分词&词性标注

# -*- coding: utf-8 -*-

import thulac

txt1 ='''

文本一：

人民网华盛顿3月28日电（记者郑琪）据美国约翰斯·霍普金斯大学疫情实时监测系统显示，截至美东时间3月28日下午6时，

美国已经至少有新冠病毒感染病例121117例，其中包括死亡病例2010例。

与大约24小时前相比，美国确诊病例至少增加了20400例，死亡病例至少增加了466例。

目前美国疫情最为严重的仍是纽约州，共有确诊病例至少52410例。此外，新泽西州有确诊病例11124例，加利福尼亚州有5065例，

密歇根州有4650例，马塞诸塞州有4257例，华盛顿州有4008例。

'''

#seg_only设置词性标注与否，deli设置分词以后以什么分隔

thu1 = thulac.thulac(seg_only=False, deli='_')

text = thu1.cut(txt1, text=True)

print('thulac分词:',text)

print('thulac词性标注:',text)

结果展示：

Model loaded succeed

thulac分词: 文本_n 一_m ：_w

人民网_n 华盛顿_ns 3月_t 28日_t 电_n （_w 记者_n 郑琪_np ）_w 据_p 美国_ns 约翰斯_np ·_w 霍普金斯_nz 大学_n 疫情_n 实时_a 监测_v 系统_n 显示_v ，_w 截至_v 美东_ns 时间_n 3月_t 28日_t 下午_t 6时_t ，_w

美国_ns 已经_d 至少_d 有_v 新_a 冠_v 病毒_n 感染_v 病例_n 121117_m 例_q ，_w 其中_r 包括_v 死亡_v 病例_n 2010_m 例_n 。_w

与_p 大约_d 24_m 小时_n 前_f 相比_v ，_w 美国_ns 确诊_v 病例_n 至少_d 增加_v 了_u 20400_m 例_q ，_w 死亡_v 病例_n 至少_d 增加_v 了_u 466_m 例_q 。_w

目前_t 美国_ns 疫情_n 最为_d 严重_a 的_u 仍_d 是_v 纽约州_ns ，_w 共有_v 确诊_v 病例_n 至少_d 52410_m 例_n 。_w 此外_c ，_w 新泽西州_ns 有_v 确诊_v 病例_n 11124_m 例_q ，_w 加利福尼亚州_ns 有_v 5065_m 例_q ，_w

密歇根州_ns 有_v 4650_m 例_q ，_w 马塞诸塞州_ns 有_v 4257_m 例_q ，_w 华盛顿州_ns 有_v 4008_m 例_q 。_w

thulac词性标注: 文本_n 一_m ：_w

人民网_n 华盛顿_ns 3月_t 28日_t 电_n （_w 记者_n 郑琪_np ）_w 据_p 美国_ns 约翰斯_np ·_w 霍普金斯_nz 大学_n 疫情_n 实时_a 监测_v 系统_n 显示_v ，_w 截至_v 美东_ns 时间_n 3月_t 28日_t 下午_t 6时_t ，_w

美国_ns 已经_d 至少_d 有_v 新_a 冠_v 病毒_n 感染_v 病例_n 121117_m 例_q ，_w 其中_r 包括_v 死亡_v 病例_n 2010_m 例_n 。_w

与_p 大约_d 24_m 小时_n 前_f 相比_v ，_w 美国_ns 确诊_v 病例_n 至少_d 增加_v 了_u 20400_m 例_q ，_w 死亡_v 病例_n 至少_d 增加_v 了_u 466_m 例_q 。_w

目前_t 美国_ns 疫情_n 最为_d 严重_a 的_u 仍_d 是_v 纽约州_ns ，_w 共有_v 确诊_v 病例_n 至少_d 52410_m 例_n 。_w 此外_c ，_w 新泽西州_ns 有_v 确诊_v 病例_n 11124_m 例_q ，_w 加利福尼亚州_ns 有_v 5065_m 例_q ，_w

密歇根州_ns 有_v 4650_m 例_q ，_w 马塞诸塞州_ns 有_v 4257_m 例_q ，_w 华盛顿州_ns 有_v 4008_m 例_q 。_w

6、nlpir分词&词性标注

# -*- coding: utf-8 -*-

import pynlpir

txt1 ='''

文本一：

人民网华盛顿3月28日电（记者郑琪）据美国约翰斯·霍普金斯大学疫情实时监测系统显示，截至美东时间3月28日下午6时，

美国已经至少有新冠病毒感染病例121117例，其中包括死亡病例2010例。

与大约24小时前相比，美国确诊病例至少增加了20400例，死亡病例至少增加了466例。

目前美国疫情最为严重的仍是纽约州，共有确诊病例至少52410例。此外，新泽西州有确诊病例11124例，加利福尼亚州有5065例，

密歇根州有4650例，马塞诸塞州有4257例，华盛顿州有4008例。

'''

pynlpir.open()

#pos_tagging：是否进行词性标注

tag_seg = pynlpir.segment(txt1,pos_tagging=False)

print('pynlpir分词：',tag_seg)

tag_word = pynlpir.segment(txt1, pos_tagging=True)

print('pynlpir词性标注：',tag_word)

pynlpir.close()

结果展示：

pynlpir分词： ['文本', '一', '：', '\n人民网', '华盛顿', '3月', '28日', '电', '（', '记者', '郑琪', '）', '据', '美国', '约翰斯·霍普金斯', '大学', '疫情', '实时', '监测', '系统', '显示', '，', '截至', '美', '东', '时间', '3月', '28日', '下午', '6时', '，', '\n美国', '已经', '至少', '有', '新', '冠', '病毒', '感染', '病例', '', '例', '，', '其中', '包括', '死亡', '病例', '', '例', '。', '\n与', '大约', '', '小时', '前', '相比', '，', '美国', '确诊', '病例', '至少', '增加', '了', '', '例', '，', '死亡', '病例', '至少', '增加', '了', '', '例', '。', '\n目前', '美国', '疫情', '最为', '严重', '的', '仍', '是', '纽约州', '，', '共有', '确诊', '病例', '至少', '', '例', '。', '此外', '，', '新泽西州', '有', '确诊', '病例', '', '例', '，', '加利福尼亚州', '有', '', '例', '，', '\n密歇根州', '有', '', '例', '，', '马塞诸塞州', '有', '', '例', '，', '华盛顿州', '有', '', '例', '。']

pynlpir词性标注： [('文本', 'noun'), ('一', 'numeral'), ('：', 'punctuation mark'), ('\n人民网', 'multiword expression'), ('华盛顿', 'noun'), ('3月', 'time word'), ('28日', 'time word'), ('电', 'noun'), ('（', 'punctuation mark'), ('记者', 'noun'), ('郑琪', 'noun'), ('）', 'punctuation mark'), ('据', 'preposition'), ('美国', 'noun'), ('约翰斯·霍普金斯', 'noun'), ('大学', 'noun'), ('疫情', 'noun'), ('实时', 'noun'), ('监测', 'verb'), ('系统', 'noun'), ('显示', 'verb'), ('，', 'punctuation mark'), ('截至', 'verb'), ('美', 'distinguishing word'), ('东', 'distinguishing word'), ('时间', 'noun'), ('3月', 'time word'), ('28日', 'time word'), ('下午', 'time word'), ('6时', 'time word'), ('，', 'punctuation mark'), ('\n美国', 'noun'), ('已经', 'adverb'), ('至少', 'adverb'), ('有', 'verb'), ('新', 'adjective'), ('冠', 'noun'), ('病毒', 'noun'), ('感染', 'verb'), ('病例', 'noun'), ('', 'numeral'), ('例', 'classifier'), ('，', 'punctuation mark'), ('其中', 'pronoun'), ('包括', 'verb'), ('死亡', 'verb'), ('病例', 'noun'), ('', 'numeral'), ('例', 'classifier'), ('。', 'punctuation mark'), ('\n与', 'preposition'), ('大约', 'adverb'), ('', 'numeral'), ('小时', 'noun'), ('前', 'noun of locality'), ('相比', 'verb'), ('，', 'punctuation mark'), ('美国', 'noun'), ('确诊', 'verb'), ('病例', 'noun'), ('至少', 'adverb'), ('增加', 'verb'), ('了', 'particle'), ('', 'numeral'), ('例', 'classifier'), ('，', 'punctuation mark'), ('死亡', 'verb'), ('病例', 'noun'), ('至少', 'adverb'), ('增加', 'verb'), ('了', 'particle'), ('', 'numeral'), ('例', 'classifier'), ('。', 'punctuation mark'), ('\n目前', 'time word'), ('美国', 'noun'), ('疫情', 'noun'), ('最为', 'adverb'), ('严重', 'adjective'), ('的', 'particle'), ('仍', 'adverb'), ('是', 'verb'), ('纽约州', 'noun'), ('，', 'punctuation mark'), ('共有', 'verb'), ('确诊', 'verb'), ('病例', 'noun'), ('至少', 'adverb'), ('', 'numeral'), ('例', 'classifier'), ('。', 'punctuation mark'), ('此外', 'conjunction'), ('，', 'punctuation mark'), ('新泽西州', 'noun'), ('有', 'verb'), ('确诊', 'verb'), ('病例', 'noun'), ('', 'numeral'), ('例', 'classifier'), ('，', 'punctuation mark'), ('加利福尼亚州', 'noun'), ('有', 'verb'), ('', 'numeral'), ('例', 'classifier'), ('，', 'punctuation mark'), ('\n密歇根州', 'noun'), ('有', 'verb'), ('', 'numeral'), ('例', 'classifier'), ('，', 'punctuation mark'), ('马塞诸塞州', 'noun'), ('有', 'verb'), ('', 'numeral'), ('例', 'classifier'), ('，', 'punctuation mark'), ('华盛顿州', 'noun'), ('有', 'verb'), ('', 'numeral'), ('例', 'classifier'), ('。', 'punctuation mark')]

7、snownlp分词&词性标注

# -*- coding: utf-8 -*-

from snownlp import SnowNLP

txt1 ='''

文本一：

人民网华盛顿3月28日电（记者郑琪）据美国约翰斯·霍普金斯大学疫情实时监测系统显示，截至美东时间3月28日下午6时，

美国已经至少有新冠病毒感染病例121117例，其中包括死亡病例2010例。

与大约24小时前相比，美国确诊病例至少增加了20400例，死亡病例至少增加了466例。

目前美国疫情最为严重的仍是纽约州，共有确诊病例至少52410例。此外，新泽西州有确诊病例11124例，加利福尼亚州有5065例，

密歇根州有4650例，马塞诸塞州有4257例，华盛顿州有4008例。

'''

s = SnowNLP(txt1)

print('snownlp分词：',s.words)

tag_list = []

for tag in s.tags:

    tag_list.append(tag)

print('snownlp词性标注：', tag_list)

结果展示：

snownlp分词： ['文本', '一', '：', '人民', '网', '华盛顿', '', '月', '', '日', '电', '（', '记者', '郑琪', '）', '据', '美国', '约翰斯', '·', '霍', '普金斯', '大学', '疫情', '实时', '监测', '系统', '显示', '，', '截至', '美', '东', '时间', '', '月', '', '日', '下午', '', '时', '，', '美国', '已经', '至少', '有', '新', '冠', '病毒', '感染', '病例', '', '例', '，', '其中', '包括', '死亡', '病例', '', '例', '。', '与', '大约', '', '小时前', '相比', '，', '美国', '确诊', '病例', '至少', '增加', '了', '', '例', '，', '死亡', '病例', '至少', '增加', '了', '', '例', '。', '目前', '美国', '疫情', '最为', '严重', '的', '仍', '是', '纽约州', '，', '共有', '确诊', '病例', '至少', '', '例', '。', '此外', '，', '新', '泽', '西州', '有', '确诊', '病例', '', '例', '，', '加利福尼亚州', '有', '', '例', '，', '密歇', '根州', '有', '', '例', '，', '马塞', '诸塞州', '有', '', '例', '，', '华盛顿', '州', '有', '', '例', '。']

snownlp词性标注： [('文本', 'n'), ('一', 'm'), ('：', 'w'), ('人民', 'n'), ('网', 'n'), ('华盛顿', 'ns'), ('', 'nz'), ('月', 'n'), ('', 'm'), ('日', 'q'), ('电', 'n'), ('（', 'w'), ('记者', 'n'), ('郑琪', 'k'), ('）', 'w'), ('据', 'p'), ('美国', 'ns'), ('约翰斯', 's'), ('·', 'w'), ('霍', 'nr'), ('普金斯', 'nr'), ('大学', 'n'), ('疫情', 'n'), ('实时', 'n'), ('监测', 'vn'), ('系统', 'n'), ('显示', 'v'), ('，', 'w'), ('截至', 'v'), ('美', 'j'), ('东', 'j'), ('时间', 'n'), ('', 'vvn'), ('月', 'n'), ('', 'm'), ('日', 'q'), ('下午', 't'), ('', 'Ag'), ('时', 'Ng'), ('，', 'w'), ('美国', 'ns'), ('已经', 'd'), ('至少', 'd'), ('有', 'v'), ('新', 'a'), ('冠', 'j'), ('病毒', 'n'), ('感染', 'v'), ('病例', 'n'), ('', 'm'), ('例', 'q'), ('，', 'w'), ('其中', 'r'), ('包括', 'v'), ('死亡', 'v'), ('病例', 'n'), ('', 'u'), ('例', 'n'), ('。', 'w'), ('与', 'c'), ('大约', 'd'), ('', 'Dg'), ('小时前', 'Vg'), ('相比', 'v'), ('，', 'w'), ('美国', 'ns'), ('确诊', 'v'), ('病例', 'n'), ('至少', 'd'), ('增加', 'v'), ('了', 'u'), ('', 'm'), ('例', 'q'), ('，', 'w'), ('死亡', 'v'), ('病例', 'n'), ('至少', 'd'), ('增加', 'v'), ('了', 'u'), ('', 'm'), ('例', 'q'), ('。', 'w'), ('目前', 't'), ('美国', 'ns'), ('疫情', 'n'), ('最为', 'd'), ('严重', 'a'), ('的', 'u'), ('仍', 'd'), ('是', 'v'), ('纽约州', 'ns'), ('，', 'w'), ('共有', 'v'), ('确诊', 'v'), ('病例', 'n'), ('至少', 'd'), ('', 'Vg'), ('例', 'n'), ('。', 'w'), ('此外', 'c'), ('，', 'w'), ('新', 'a'), ('泽', 'nr'), ('西州', 'nr'), ('有', 'v'), ('确诊', 'v'), ('病例', 'n'), ('', 'm'), ('例', 'q'), ('，', 'w'), ('加利福尼亚州', 'ns'), ('有', 'v'), ('', 'm'), ('例', 'q'), ('，', 'w'), ('密歇', 'e'), ('根州', 'e'), ('有', 'v'), ('', 'y'), ('例', 'n'), ('，', 'w'), ('马塞', 'ns'), ('诸塞州', 'Tg'), ('有', 'v'), ('', 'Tg'), ('例', 'n'), ('，', 'w'), ('华盛顿', 'ns'), ('州', 'n'), ('有', 'v'), ('', 'Bg'), ('例', 'n'), ('。', 'w')]

常用中文分词工具分词&词性标注简单应用（jieba、pyhanlp、pkuseg、foolnltk、thulac、snownlp、nlpir）的更多相关文章

分词工具比较及使用(ansj、hanlp、jieba)
一.分词工具 ansj.hanlp.jieba 二.优缺点 1.ansj 优点: 提供多种分词方式可直接根据内部词库分出人名.机构等信息可构造多个词库,在分词时可动态选择所要使用的词库缺点: 自定 ...
NLP自然语言处理中英文分词工具集锦与基本使用介绍
一.中文分词工具 (1)Jieba (2)snowNLP分词工具 (3)thulac分词工具 (4)pynlpir 分词工具 (5)StanfordCoreNLP分词工具 1.from stanfor ...
中文分词工具简介与安装教程（jieba、nlpir、hanlp、pkuseg、foolnltk、snownlp、thulac）
2.1 jieba 2.1.1 jieba简介 Jieba中文含义结巴,jieba库是目前做的最好的python分词组件.首先它的安装十分便捷,只需要使用pip安装:其次,它不需要另外下载其它的数据包 ...
NLP自然语言处理 jieba中文分词,关键词提取,词性标注,并行分词,起止位置,文本挖掘,NLP WordEmbedding的概念和实现
1. NLP 走近自然语言处理概念 Natural Language Processing/Understanding,自然语言处理/理解日常对话.办公写作.上网浏览希望机器能像人一样去理解,以 ...
中文分词工具——jieba
汉字是智慧和想象力的宝库. --索尼公司创始人井深大简介在英语中,单词就是"词"的表达,一个句子是由空格来分隔的,而在汉语中,词以字为基本单位,但是一篇文章的表达是以词来划分的 ...
中文分词工具探析（二）：Jieba
1. 前言 Jieba是由fxsjy大神开源的一款中文分词工具,一款属于工业界的分词工具--模型易用简单.代码清晰可读,推荐有志学习NLP或Python的读一下源码.与采用分词模型Bigram + H ...
中文分词工具探析（一）：ICTCLAS (NLPIR)
1. 前言 ICTCLAS是张华平在2000年推出的中文分词系统,于2009年更名为NLPIR.ICTCLAS是中文分词界元老级工具了,作者开放出了free版本的源代码(1.0整理版本在此). 作者在 ...
开源中文分词工具探析（五）：FNLP
FNLP是由Fudan NLP实验室的邱锡鹏老师开源的一套Java写就的中文NLP工具包,提供诸如分词.词性标注.文本分类.依存句法分析等功能. [开源中文分词工具探析]系列: 中文分词工具探析(一) ...
开源中文分词工具探析（五）：Stanford CoreNLP
CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer ...

随机推荐

Python爬虫某招聘网站的岗位信息
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:阿尔法游戏 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
Labyrinth 树的直径加DFS
The northern part of the Pyramid contains a very large and complicated labyrinth. The labyrinth is d ...
Problem F Free Weights
二分答案. 思路:对于二分给定的mid,即当前允许移动的最大重量,我们可以把小于改重量的标记一下,然后把没有标记的按照顺序放到另一个数组,然后判断是否满足两两相同. #include<bits/ ...
vue中data必须是一个函数
前端面试时经常被问到:“组建中data为什么是函数”? 答案就是:在组件中data必须是一个函数,这样的话,每个实例可以维护一份被返回对象的独立拷贝.
2016NOIP普及组T2回文日期
回文日期分类:枚举,函数 [题目描述] 日常生活中,通过年.月.日这三个要素可以表示出一个唯一确定的日期. 牛牛习惯用8位数字表示一个日期,其中,前4位代表年份,接下来2位代表月份,最后2位代表日期 ...
关于unix环境高级编程、Linux程序设计两部书浅谈
unix环境高级编程的术语很多,概念内容,也很多,不过学习概念性质.标准规则类的东西,想必都是这样吧——需要进行拓展的内容很多. Linux程序设计,图文并茂,代码量够足,看起来,感觉难度还可以. l ...
php中垃圾回收机制
php中垃圾回收机制我们可能在开发中经常会听到gc,是的gc就是垃圾回收容器,全称Garbage Collection. 此篇文章中“垃圾”的概念:如果一个变量容器能被减少到0,说明他就已经没有被引 ...
js拼接php拼接
当我们用到ajax的时候,局部替换的时候,我们可以在前台拼接,后台拼接,这个取决于你是前端后端这样拼接判断比较好, 判断不拼接,判断的值进行拼接然后在html 替换 $.each 前台循环 ...
automake autoconf 使用详解
本文地址: http://www.laruence.com/2009/11/18/1154.html 文章转自: http://www.linuxcomputer.cn/ 作为Linux下的程序开发人 ...
c语言-----劫持系统03
1. 回顾在前2节我们已经实现了劫持原理.函数指针等一些概念,下面进行系统劫持 2. 工具 vs2017 Detours 3. windows如何创建一个进程? (1)创建进程函数 CreatePr ...

常用中文分词工具分词&词性标注简单应用（jieba、pyhanlp、pkuseg、foolnltk、thulac、snownlp、nlpir）

1、jieba分词&词性标注

2、pyhanlp分词&词性标注

3、pkuseg分词&词性标注

4、foolnltk分词&词性标注

5、thulac分词&词性标注

6、nlpir分词&词性标注

常用中文分词工具分词&词性标注简单应用（jieba、pyhanlp、pkuseg、foolnltk、thulac、snownlp、nlpir）的更多相关文章

随机推荐

热门专题