什么是pyltp:

pyltp 是LTP的 Python 封装，提供了分词，词性标注，命名实体识别，依存句法分析，语义角色标注的功能。

安装 pyltp

测试环境：系统win10 64位， python3.6.5

官方安装是直接使用pip install pyltp命令安装，但是经过多次反复实践，到处是坑，最后放弃了

轮子文件安装：1.下载pyltp-0.2.1-cp36-cp36m-win_amd64.whl文件,百度云，提取码：1gki

　　　　　　　2.切换到下载文件的目录,执行 pip install pyltp-0.2.1-cp36-cp36m-win_amd64.whl

使用 pyltp

使用前请先下载完整模型，百度云,提取码：7qk2，当前模型版本 - 3.4.0

请注意编码：

　　pyltp 的所有输入的分析文本和输出的结果的编码均为 UTF-8。

　　如果您以非 UTF-8 编码的文本输入进行分析，结果可能为空。请注意源代码文件的默认编码。

　　由于 Windows 终端采用 GBK 编码显示，直接输出 pyltp 的分析结果会在终端显示为乱码。您可以将标准输出重定向到文件，以 UTF8 方式查看文件，就可以解决显示乱码的问题。

分句：

使用 pyltp 进行分句示例如下：

'''

使用pyltp进行分句

'''

from pyltp import SentenceSplitter

sents = SentenceSplitter.split('元芳你怎么看？我就趴在窗口上看呗！元芳你怎么这样子了？我哪样子了？')

# print(sents)

# print('\n'.join(sents))

sents = '|'.join(sents)

print(sents)

运行结果如下：　

元芳你怎么看？|我就趴在窗口上看呗！|元芳你怎么这样子了？|我哪样子了？

分词：

使用 pyltp 进行分词示例如下：

"""

使用pyltp进行分词

"""

import os

from pyltp import Segmentor

LTP_DATA_DIR = r'E:\python_env\ltp\ltp_data_v3.4.0'   # LTP模型目录路径

cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径， 模型名称为'cws.model'

segmentor = Segmentor()  # 初始化实例

segmentor.load(cws_model_path)  # 加载模型

words = segmentor.segment('元芳你怎么看')  # 分词

print(type(words))

print(type('|'.join(words)))
print('|'.join(words))

segmentor.release()   # 释放模型

运行结果如下：

<class 'pyltp.VectorOfString'>

<class 'str'>

元芳|你|怎么|看

　　words = segmentor.segment('元芳你怎么看') 的返回值类型是native的VectorOfString类型，可以使用list转换成Python的列表类型　

使用分词外部词典：

　　　pyltp 分词支持用户使用自定义词典。分词外部词典本身是一个文本文件（plain text），每行指定一个词，编码同样须为 UTF-8，样例如下所示

　　苯并芘

　　亚硝酸盐

示例如下：

'''

使用分词外部词典

'''

import os

from pyltp import Segmentor

LTP_DATA_DIR = r'E:\python_env\ltp\ltp_data_v3.4.0'   # LTP模型目录路径

cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径， 模型名称为'cws.model'

segmentor = Segmentor()

segmentor.load_with_lexicon(cws_model_path, 'plain.txt')  # 加载模型，第二个参数是外部词典文件路径

words = segmentor.segment('亚硝酸盐是一种化学物质')

print('|'.join(words))

segmentor.release()

　运行结果：

[INFO] 2019-05-10 15:18:05 loaded 2 lexicon entries

亚硝酸盐|是|一|种|化学|物质

词性标注：

使用 pyltp 进行词性标注

'''

使用 pyltp 进行词性标注

'''

import os

from pyltp import Postagger

LTP_DATA_DIR = r'E:\python_env\ltp\ltp_data_v3.4.0'   # LTP模型目录路径

pos_model_path = os.path.join(LTP_DATA_DIR, 'pos.model')  # 分词模型路径， 模型名称为'pos.model'

postagger = Postagger()   # 初始化实例

postagger.load(pos_model_path)  # 加载模型

words = ['元芳', '你', '怎么', '看']   # words是分词模块的返回值，也支持Python原生list,此处使用list

postags = postagger.postag(words)   # 词性标注

print('|'.join(postags))

postagger.release()  # 释放模型

　运行结果：　　

nh|r|r|v

　LTP 使用 863 词性标注集，详细请参考词性标准集。如下图所示

命名实体识别

使用 pyltp 进行命名实体识别示例如下

'''

命名实体识别

'''

import os

from pyltp import NamedEntityRecognizer

LTP_DATA_DIR = r'E:\python_env\ltp\ltp_data_v3.4.0'   # LTP模型目录路径

ner_model_path = os.path.join(LTP_DATA_DIR, 'ner.model')  # 分词模型路径， 模型名称为'c.model'

recognizer = NamedEntityRecognizer()   # 初始化实例

recognizer.load(ner_model_path)  # 加载模型

words = ['元芳', '你', '怎么', '看']   # 分词模块的返回值

postags = ['nh', 'r', 'r', 'v']   # 词性标注的返回值

netags = recognizer.recognize(words, postags)  # 命名实体识别

print(netags)

print(list(netags))

recognizer.release()  # 释放模型

　其中，words 和 postags 分别为分词和词性标注的结果。同样支持Python原生的list类型。　

运行结果

<pyltp.VectorOfString object at 0x000002B3A798DBD0>

['S-Nh', 'O', 'O', 'O']

LTP 采用 BIESO 标注体系。B 表示实体开始词，I表示实体中间词，E表示实体结束词，S表示单独成实体，O表示不构成命名实体。

LTP 提供的命名实体类型为:人名（Nh）、地名（Ns）、机构名（Ni）。

B、I、E、S位置标签和实体类型标签之间用一个横线 - 相连；O标签后没有类型标签。

详细标注请参考命名实体识别标注集。

NE识别模块的标注结果采用O-S-B-I-E标注形式，其含义为

标记	含义
O	这个词不是NE
S	这个词单独构成一个NE
B	这个词为一个NE的开始
I	这个词为一个NE的中间
E	这个词位一个NE的结尾

LTP中的NE 模块识别三种NE，分别如下：

标记	含义
Nh	人名
Ni	机构名
Ns	地名

依存句法分析

使用 pyltp 进行依存句法分析示例如下

"""

依存句法分析

"""

import os

from pyltp import Parser

LTP_DATA_DIR = r'E:\python_env\ltp\ltp_data_v3.4.0'   # LTP模型目录路径

par_model_path = os.path.join(LTP_DATA_DIR, 'parser.model')  # 分词模型路径， 模型名称为'parser.model'

parser = Parser()   # 初始化实例

parser.load(par_model_path)   # 加载模型

words = ['元芳', '你', '怎么', '看']

postags = ['nh', 'r', 'r', 'v']

arcs = parser.parse(words, postags)   # 句法分析

print('\t'.join('%d: %s' %(arc.head, arc.relation) for arc in arcs))

parser.release()   # 释放模型

　其中，words 和 postags 分别为分词和词性标注的结果。同样支持Python原生的list类型。　

运行结果

4: SBV	4: SBV	4: ADV	0: HED

arc.head 表示依存弧的父节点词的索引。ROOT节点的索引是0，第一个词开始的索引依次为1、2、3…

arc.relation 表示依存弧的关系。

arc.head 表示依存弧的父节点词的索引，arc.relation 表示依存弧的关系。

标注集请参考依存句法关系

关系类型	Tag	Description	Example
主谓关系	SBV	subject-verb	我送她一束花 (我 <– 送)
动宾关系	VOB	直接宾语，verb-object	我送她一束花 (送 –> 花)
间宾关系	IOB	间接宾语，indirect-object	我送她一束花 (送 –> 她)
前置宾语	FOB	前置宾语，fronting-object	他什么书都读 (书 <– 读)
兼语	DBL	double	他请我吃饭 (请 –> 我)
定中关系	ATT	attribute	红苹果 (红 <– 苹果)
状中结构	ADV	adverbial	非常美丽 (非常 <– 美丽)
动补结构	CMP	complement	做完了作业 (做 –> 完)
并列关系	COO	coordinate	大山和大海 (大山 –> 大海)
介宾关系	POB	preposition-object	在贸易区内 (在 –> 内)
左附加关系	LAD	left adjunct	大山和大海 (和 <– 大海)
右附加关系	RAD	right adjunct	孩子们 (孩子 –> 们)
独立结构	IS	independent structure	两个单句在结构上彼此独立
核心关系	HED	head	指整个句子的核心

语义角色标注

使用 pyltp 进行语义角色标注示例如下

'''

语义角色标注

'''

import os

from pyltp import SementicRoleLabeller

from demo6 import parser

LTP_DATA_DIR = r'E:\python_env\ltp\ltp_data_v3.4.0'   # LTP模型目录路径

srl_model_path = os.path.join(LTP_DATA_DIR, 'pisrl_win.model')  # 分词模型路径， 模型名称为'pisrl_win.model'

labeller = SementicRoleLabeller()  # 初始化实例

labeller.load(srl_model_path)   # 加载模型

words = ['元芳', '你', '怎么', '看']

postags = ['nh', 'r', 'r', 'v']

arcs = parser()

print(arcs)

　　特别注意，windows系统此处用的模型是pirl_win.model

运行结果

[dynet] random seed: 2222491344

[dynet] allocating memory: 2000MB

[dynet] memory allocation done.

4: SBV	4: SBV	4: ADV	0: HED

<pyltp.VectorOfParseResult object at 0x0000026B5902DC30>

3 A0:(1,1)ADV:(2,2)

第一个词开始的索引依次为0、1、2…

返回结果 roles 是关于多个谓词的语义角色分析的结果。由于一句话中可能不含有语义角色，所以结果可能为空。

role.index 代表谓词的索引， role.arguments 代表关于该谓词的若干语义角色。

arg.name 表示语义角色类型，arg.range.start 表示该语义角色起始词位置的索引，arg.range.end 表示该语义角色结束词位置的索引。

例如上面的例子，由于结果输出一行，所以“元芳你怎么看”有一组语义角色。其谓词索引为3，即“看”。这个谓词有三个语义角色，范围分别是(0,0)即“元芳”，(1,1)即“你”，(2,2)即“怎么”，类型分别是A0、A0、ADV。

arg.name 表示语义角色关系，arg.range.start 表示起始词位置，arg.range.end 表示结束位置。

标注集请参考语义角色关系。

语义角色类型	说明
ADV	adverbial, default tag ( 附加的，默认标记 )
BNE	beneﬁciary ( 受益人 )
CND	condition ( 条件 )
DIR	direction ( 方向 )
DGR	degree ( 程度 )
EXT	extent ( 扩展 )
FRQ	frequency ( 频率 )
LOC	locative ( 地点 )
MNR	manner ( 方式 )
PRP	purpose or reason ( 目的或原因 )
TMP	temporal ( 时间 )
TPC	topic ( 主题 )
CRD	coordinated arguments ( 并列参数 )
PRD	predicate ( 谓语动词 )
PSR	possessor ( 持有者 )
PSE	possessee ( 被持有 )

完整示例

import os,sys

from pyltp import SentenceSplitter,Segmentor,Postagger,Parser,NamedEntityRecognizer,SementicRoleLabeller

LTP_DATA_DIR = r'E:\python_env\ltp\ltp_data_v3.4.0'   # LTP模型目录路径

cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径， 模型名称为'cws.model'

paragraph = '中国进出口银行与中国银行加强合作。中国进出口银行与中国银行加强合作！'

sentence = SentenceSplitter.split(paragraph)[0]  # 分句并取第一句

# 分词

segmentor = Segmentor()   # 初始化

segmentor.load(os.path.join(LTP_DATA_DIR, 'cws.model'))   # 加载模型

words = segmentor.segment(sentence)  # 分词

print(list(words))

print('|'.join(words))

# 词性标注

postagger = Postagger()  # 初始化

postagger.load(os.path.join(LTP_DATA_DIR, 'pos.model'))  # 加载模型

postags = postagger.postag(words)

#postags = postagger.postag(['中国', '进出口', '银行', '与', '中国银行', '加强', '合作', '。'])

print(list(postags))

# 依存句法分析

parser = Parser()

parser.load(os.path.join(LTP_DATA_DIR, 'parser.model'))

arcs = parser.parse(words, postags)

print('\t'.join('%d:%s' %(arc.head, arc.relation) for arc in arcs))

# 命名实体识别

recognizer = NamedEntityRecognizer()  # 实例化

recognizer.load(os.path.join(LTP_DATA_DIR, 'ner.model'))

netags = recognizer.recognize(words, postags)

print(list(netags))

# 语义角色标注

labeller = SementicRoleLabeller()

labeller.load(os.path.join(LTP_DATA_DIR, 'pisrl_win.model'))

roles = labeller.label(words, postags, arcs)

for role in roles:

    print(role.index, "".join(

            ["%s:(%d,%d)" % (arg.name, arg.range.start, arg.range.end) for arg in role.arguments]))

segmentor.release()  # 释放

postagger.release()

parser.release()

recognizer.release()

labeller.release()

参考链接：https://pyltp.readthedocs.io/zh_CN/latest/

　　　　　https://github.com/HIT-SCIR/pyltp

安装和使用pyltp的更多相关文章

pyltp安装教程及简单使用
1.pyltp简介 pyltp 是哈工大自然语言工作组推出的一款基于Python 封装的自然语言处理工具(轮子),提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能. 2.pyltp ...
pyltp安装踩坑记录
LTP(Language Technology Platform)由哈工大社会计算与信息检索研究中心开发,提供包括中文分词.词性标注.命名实体识别.依存句法分析.语义角色标注等丰富. 高效.精准的自然 ...
Ubuntu安装使用pyltp和StanfordCoreNLP
环境:Ubuntu 16.04+anaconda3 一.pyltp 1. 安装直接用pip安装: pip install pyltp 然后下载语言模型库,网址:https://pan.baidu.c ...
pyltp安装
第一步:下载wheel文件第二步:进入该文件的文件夹第三步:pip install wheel文件名注意:python的安装版本必须和pyltp的版本相同,我这版本都是pyhton3.6.之前p ...
windows下使用LTP分词，安装pyltp
1.LTP介绍 ltp是哈工大出品的自然语言处理工具箱, 提供包括中文分词.词性标注.命名实体识别.依存句法分析.语义角色标注等丰富. 高效.精准的自然语言处理技术.pyltp是python下对ltp ...
liunx anacoda 安装pyltp
anacoda 默认的gcc是4.7需要更新 https://anaconda.org/nlesc/gcc 更新之后再安装即可. 报错: /usr/lib64/libstdc++.so.6: vers ...
NLP入门（六）pyltp的介绍与使用
pyltp的简介语言技术平台(LTP)经过哈工大社会计算与信息检索研究中心 11 年的持续研发和推广, 是国内外最具影响力的中文处理基础平台.它提供的功能包括中文分词.词性标注.命名实体识别.依 ...
python中文分词库——pyltp
pyltp在win10下安装比较麻烦,因此参考以下安装方式, 1.下载 win10下python3.6 2.安装下载好了以后, 在命令行下, cd到wheel文件所在的目录, 然后使用命令pip i ...
命名实体识别，使用pyltp提取文本中的地址
首先安装pyltp pytlp项目首页单例类(第一次调用时加载模型) class Singleton(object): def __new__(cls, *args, **kwargs): if n ...

随机推荐

网络编程socket理论一
网络通信理论首先说下网络之间的通信流程看图 Socket 层是位于运输层和应用层之间的,封装好的,方便使用 Socket 是什么和工作流程 Socket是应用层与TCP/IP协议族通信的中间软件抽象 ...
Lua语法要点2
[Lua语法要点2] 1.Lua函数 function 可以添加 local 关键字.添加后为局部函数,不添加(默认)为全局函数.return 可以返回多个返回值,以, 分隔. 使用 ... 来表示变 ...
mapreduce 读写Parquet格式数据 Demo
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs ...
Unable to instantiate Action, xxxAction, defined for 'showBlogDetails'
(忘了截图错误信息...) 使用SSH框架配置applicationContext.xml与struts.xml之间的映射关系解决方案:保证applicationContext.xml中注册的bea ...
Pandas | 11 字符串函数
在本章中,我们将使用基本系列/索引来讨论字符串操作.在随后的章节中,将学习如何将这些字符串函数应用于数据帧(DataFrame). Pandas提供了一组字符串函数,可以方便地对字符串数据进行操作. ...
T4模板简单使用
原文:https://www.cnblogs.com/sanduo8899/p/3964563.html <#@ template debug="false" hostspe ...
最短路径 | 1003 dfs 或 dij ，单源最短路径条数与经过的点权最大
这题很早之前就遇到过,是pat留给我的第一印象,然而昨天却有点写不出来.今天dfs用了10分钟不到写出来了.dij用了大约15分钟,捉虫花了一点时间. dfs: 注意剪枝的时候别剪错就行了. #inc ...
iptables 表和链的对应关系
filter表主要用于对数据包进行过滤,根据具体的规则决定是否放行该数据包(如DROP.ACCEPT.REJECT.LOG).filter 表对应的内核模块为iptable_filter,包含三个规 ...
docker compose yml 文件常用字段简介
常用参数: version # 指定 compose 文件的版本 services # 定义所有的 service 信息, services 下面的第一级别的 key 既是一个 service 的名称 ...
java web开发入门二（struts）基于eclispe
JavaBean JavaBean, 咖啡豆. JavaBean是一种开发规范,可以说是一种技术. JavaBean就是一个普通的java类.只有符合以下规定才能称之为javabean: 1)必须提 ...

安装和使用pyltp

什么是pyltp:

pyltp 是LTP的 Python 封装，提供了分词，词性标注，命名实体识别，依存句法分析，语义角色标注的功能。

安装 pyltp

使用 pyltp

使用前请先下载完整模型，百度云,提取码：7qk2，当前模型版本 - 3.4.0

请注意编码：

pyltp 的所有输入的分析文本和输出的结果的编码均为 UTF-8。

如果您以非 UTF-8 编码的文本输入进行分析，结果可能为空。请注意源代码文件的默认编码。

由于 Windows 终端采用 GBK 编码显示，直接输出 pyltp 的分析结果会在终端显示为乱码。您可以将标准输出重定向到文件，以 UTF8 方式查看文件，就可以解决显示乱码的问题。

分句：

分词：

使用 pyltp 进行分词示例如下：

运行结果如下：

使用分词外部词典：

示例如下：

运行结果：

词性标注：

使用 pyltp 进行词性标注

运行结果：

命名实体识别

运行结果

依存句法分析

运行结果

语义角色标注

运行结果

完整示例

安装和使用pyltp的更多相关文章

随机推荐

热门专题

　　pyltp 的所有输入的分析文本和输出的结果的编码均为 UTF-8。

　　如果您以非 UTF-8 编码的文本输入进行分析，结果可能为空。请注意源代码文件的默认编码。

　　由于 Windows 终端采用 GBK 编码显示，直接输出 pyltp 的分析结果会在终端显示为乱码。您可以将标准输出重定向到文件，以 UTF8 方式查看文件，就可以解决显示乱码的问题。

　运行结果：

　运行结果：