哈工大LTP基本使用-分词、词性标注、依存句法分析、命名实体识别、角色标注

代码

import os

from pprint import pprint

from pyltp import Segmentor, Postagger, Parser, NamedEntityRecognizer, SementicRoleLabeller

class LtpParser:

    def __init__(self):

        LTP_DIR = "../model/ltp_data_v3.4.0/"

        self.segmentor = Segmentor()

        # load_with_lexicon用于加载自定义的词典

        self.segmentor.load_with_lexicon(os.path.join(LTP_DIR, "cws.model"),os.path.join(LTP_DIR, "user_dict.txt"))

        self.postagger = Postagger()

        self.postagger.load_with_lexicon(os.path.join(LTP_DIR, "pos.model"),os.path.join(LTP_DIR, "user_dict.txt"))

        self.parser = Parser()

        self.parser.load(os.path.join(LTP_DIR, "parser.model"))

        self.recognizer = NamedEntityRecognizer()

        self.recognizer.load(os.path.join(LTP_DIR, "ner.model"))

        self.labeller = SementicRoleLabeller()

        self.labeller.load(os.path.join(LTP_DIR, 'pisrl.model'))

    def analyse(self, text):

        # 分词

        segmentor_res = self.segmentor.segment(text)

        print(list(segmentor_res))

        # 词性标注,传入的是分词的结果

        postagger_res = self.postagger.postag(segmentor_res)

        print(list(postagger_res))

        # 命名实体识别，传入的是分词、词性标注的结果

        # 依存句法分析，传入的是分词、词性标注的结果

        arcs = self.parser.parse(segmentor_res, postagger_res)

        # print("\t".join("%d:%s" % (arc.head, arc.relation) for arc in arcs))

        arcs_res = []

        for word, arc in zip(list(segmentor_res), arcs):

            tmp = {}

            if arc.head == 0:

                tmp['dep'] = word

                tmp['gov'] = 'ROOT'

                tmp['pos'] = arc.relation

            else:

                tmp['dep'] = word

                tmp['gov'] = segmentor_res[arc.head-1]

                tmp['pos'] = arc.relation

            arcs_res.append(tmp)

        pprint(arcs_res)

        # 语义角色标注，传入的是分词、词性标注、句法分析结果

        labeller_res = self.labeller.label(segmentor_res, postagger_res, arcs)

        for role in labeller_res:

            print (role.index, "\t".join(["%s:(%d,%d)-(%s)" % (arg.name, arg.range.start, arg.range.end, "".join(list(segmentor_res)[arg.range.start:arg.range.end+1])) for arg in role.arguments]))

if __name__ == '__main__':

    ltpParser = LtpParser()

    text = "中国是一个自由、和平的国家"

    ltpParser.analyse(text)

结果

['中国', '是', '一个', '自由', '、', '和平', '的', '国家']

['ns', 'v', 'm', 'a', 'wp', 'a', 'u', 'n']

['S-Ns', 'O', 'O', 'O', 'O', 'O', 'O', 'O']

[{'dep': '中国', 'gov': '是', 'pos': 'SBV'},

 {'dep': '是', 'gov': 'ROOT', 'pos': 'HED'},

 {'dep': '一个', 'gov': '国家', 'pos': 'ATT'},

 {'dep': '自由', 'gov': '国家', 'pos': 'ATT'},

 {'dep': '、', 'gov': '和平', 'pos': 'WP'},

 {'dep': '和平', 'gov': '自由', 'pos': 'COO'},

 {'dep': '的', 'gov': '自由', 'pos': 'RAD'},

 {'dep': '国家', 'gov': '是', 'pos': 'VOB'}]

1 A0:(0,0)-(中国)	A1:(2,7)-(一个自由、和平的国家)

哈工大LTP基本使用-分词、词性标注、依存句法分析、命名实体识别、角色标注的更多相关文章

学习笔记CB007:分词、命名实体识别、词性标注、句法分析树
中文分词把文本切分成词语,还可以反过来,把该拼一起的词再拼到一起,找到命名实体. 概率图模型条件随机场适用观测值条件下决定随机变量有有限个取值情况.给定观察序列X,某个特定标记序列Y概率,指数函数 e ...
使用哈工大LTP进行文本命名实体识别并保存到txt
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明.本文链接:https://blog.csdn.net/broccoli2/article/det ...
HMM（隐马尔科夫模型）与分词、词性标注、命名实体识别
转载自 http://www.cnblogs.com/skyme/p/4651331.html HMM(隐马尔可夫模型)是用来描述隐含未知参数的统计模型,举一个经典的例子:一个东京的朋友每天根据天气{ ...
HMM与分词、词性标注、命名实体识别
http://www.hankcs.com/nlp/hmm-and-segmentation-tagging-named-entity-recognition.html HMM(隐马尔可夫模型)是用来 ...
PyTorch 高级实战教程：基于 BI-LSTM CRF 实现命名实体识别和中文分词
前言:译者实测 PyTorch 代码非常简洁易懂,只需要将中文分词的数据集预处理成作者提到的格式,即可很快的就迁移了这个代码到中文分词中,相关的代码后续将会分享. 具体的数据格式,这种方式并不适合处理 ...
ZH奶酪：哈工大LTP云平台标记含义及性能
从官网搬过来的囧rz 哈工大讯飞语言云由哈工大和科大讯飞联合研发的中文自然语言处理云服务平台.结合了哈工大“语言技术平台——LTP” 高效.精准的自然语言处理核心技术和讯飞公司在全国性大规模云 ...
HanLP分词命名实体提取详解
HanLP分词命名实体提取详解分享一篇大神的关于hanlp分词命名实体提取的经验文章,文章中分享的内容略有一段时间(使用的hanlp版本比较老),最新一版的hanlp已经出来了,也可以去看看新版 ...
nlp 总结分词，词义消歧，词性标注，命名体识别，依存句法分析，语义角色标注
分词中文分词 (Word Segmentation, WS) 指的是将汉字序列切分成词序列. 因为在汉语中,词是承载语义的最基本的单元.分词是信息检索.文本分类.情感分析等多项中文自然语言处理任务的 ...
3. 哈工大LTP解析
1. 通俗易懂解释知识图谱(Knowledge Graph) 2. 知识图谱-命名实体识别(NER)详解 3. 哈工大LTP解析 1. 前言哈工大语言技术平台Language Technology ...

随机推荐

【Notes_2】现代图形学入门——向量与线性代数
向量与线性代数点乘和叉乘 Dot Multiplication 点乘在图形学的应用 (1) 求两个向量之间的夹角: $$\cos(\theta) = \frac{(\vec{a} \cdot \ve ...
用 Hugo 快速搭建博客
用 Hugo 搭建博客 Hugo 是一个用 Go 编写的静态站点生成器,生成速度很快下面是具体操作: 1.安装 Hugo Windows 用户使用 Chocolatey 或者 Scoop 快速安装 ...
PID算法验证
算法: struct PID { float kp; float kpnfac; float ki; float kinfac; float kd; }; float gCurPPM = 1300; ...
00.从0实现一个JVM语言系列
00.一个JVM语言的诞生由于方才才获悉博客园文章默认不放在首页的, 原创文章主要通过随笔显示, 所以将文章迁移到随笔; 这篇帖子将后续更新, 欢迎关注! 这段时间要忙着春招实习, 所以项目更新会慢 ...
dapr学习：dapr介绍
该部分主要是给出学习dapr的入门,描述dapr全貌告诉你dapr是啥以及介绍dapr的主要功能与组件该部分分为两章: 第一章:介绍dapr 第二章:调试dapr的解决方案项目 1. 介绍dapr ...
[个人总结]pytorch中model.eval()会对哪些函数有影响？
来源于知乎:pytorch中model.eval()会对哪些函数有影响? - 蔺笑天的回答 - 知乎 https://www.zhihu.com/question/363144860/answer/9 ...
【转载】关于grad_tensors的解惑
转载:https://www.cnblogs.com/marsggbo/p/11549631.html 平常都是无脑使用backward,每次看到别人的代码里使用诸如autograd.grad这种方法 ...
python3 获取博彩网站页面下所有域名（批量）
已有的域名信息详细实现过程如下 #!/usr/bin/env python # -*- coding:utf-8 -*- import requests from bs4 import Beauti ...
比较String 字符串的字节大小
package com.ittx.edi.erp;import java.io.File;import java.io.FileWriter;import java.io.IOException;pu ...
记录一个在配置虚拟环境是遇到的错误(virtualenv)
原配置文件 export WORKON_HOME=~/Envs #设置virtualenv的统一管理目录 export VIRTUALENVWRAPPER_VIRTUALENV_ARGS='--no- ...

哈工大LTP基本使用-分词、词性标注、依存句法分析、命名实体识别、角色标注

代码

结果

哈工大LTP基本使用-分词、词性标注、依存句法分析、命名实体识别、角色标注的更多相关文章

随机推荐

热门专题