[转自百度文库]

基于CRF工具的机器学习方法命名实体识别的过程

  • |
  • 浏览:226
  • |
  • 更新:2014-04-11 09:32

这里只讲基本过程,不涉及具体实现,我也是初学者,想给其他初学者一些帮助,如有不对,请多包涵

方法/步骤

  1.  

    语料的收集整理。部分专业有完整的语料库(包括训练语料和测试语料,这些语料不需要再进行人工标注)。如果没有,个人就要根据专业需求上网上用工具抓取,下载,预处理(对中文语料需要进行分词处理和词性标注预处理),同时要对训练预料进行人工标注,很浪费时间。个人建议初学者直接在能找到的专业语料库上做实验。

  2.  

    根据专业需求选取要抽取的特征,制定特征模板。这个过程参考专业领域的论文,一般好的特征别人都提到过。选取特征之后这里要跑程序,将语料格式根据选取的特征转化为CRF模型所要求的语料格式(这个程序一般要自己写,因为特征不一样)。

  3.  

    语料格式整理好之后,用CRF进行训练。配置crf就不说了,训练和测试是在DOS环境下进行的。使用crf工具进行训练:命令:crf_learn template train model   (template是训练模板 train 训练语料model训练模型)

    使用crf工具进行测试:命令:crf_test  model test > test.a(model是训练模型test 是测试语料test.a是测试结果)这里只是一个例子说明过程,具体使用方法百度CRF的具体用法。

  4. 4

    这个测试结果不能直接进行评价,要先测试结果转化为可以评价的格式(这里也是需要跑程序)。转化后评测。目前我知道的是在UNIX系统下评测,有UNIX服务器的最好,用 FlashFXP软件登陆服务器,用putty软件进行评测。putty评测命令:perl alt_eval.perl test.e > test-1(test.e是可以被评测的经过CRF模型测试过的测试语料格式,是经过my Eclipse转化而来。test-1是存放评测结果的文件,如果不定义,结果直接显示在控制台)。

     

基于CRF工具的机器学习方法命名实体识别的过的更多相关文章

  1. 基于BERT预训练的中文命名实体识别TensorFlow实现

    BERT-BiLSMT-CRF-NERTensorflow solution of NER task Using BiLSTM-CRF model with Google BERT Fine-tuni ...

  2. NLP 基于kashgari和BERT实现中文命名实体识别(NER)

    准备工作,先准备 python 环境,下载 BERT 语言模型 Python 3.6 环境 需要安装kashgari Backend pypi version desc TensorFlow 2.x ...

  3. PyTorch 高级实战教程:基于 BI-LSTM CRF 实现命名实体识别和中文分词

    前言:译者实测 PyTorch 代码非常简洁易懂,只需要将中文分词的数据集预处理成作者提到的格式,即可很快的就迁移了这个代码到中文分词中,相关的代码后续将会分享. 具体的数据格式,这种方式并不适合处理 ...

  4. 【转】基于VSM的命名实体识别、歧义消解和指代消解

    原文地址:http://blog.csdn.net/eastmount/article/details/48566671 版权声明:本文为博主原创文章,转载请注明CSDN博客源地址!共同学习,一起进步 ...

  5. NLP入门(四)命名实体识别(NER)

      本文将会简单介绍自然语言处理(NLP)中的命名实体识别(NER).   命名实体识别(Named Entity Recognition,简称NER)是信息提取.问答系统.句法分析.机器翻译等应用领 ...

  6. 自然语言18.2_NLTK命名实体识别

    QQ:231469242 欢迎nltk爱好者交流 http://blog.csdn.net/u010718606/article/details/50148261 NLTK中对于很多自然语言处理应用有 ...

  7. 8.HanLP实现--命名实体识别

    笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP 8. 命名实体识别 8.1 概述 命名实体 文本中有一些描述实体的词汇.比如人名. ...

  8. 基于keras的BiLstm与CRF实现命名实体标注

    众所周知,通过Bilstm已经可以实现分词或命名实体标注了,同样地单独的CRF也可以很好的实现.既然LSTM都已经可以预测了,为啥要搞一个LSTM+CRF的hybrid model? 因为单独LSTM ...

  9. 基于条件随机场(CRF)的命名实体识别

    很久前做过一个命名实体识别的模块,现在有时间,记录一下. 一.要识别的对象 人名.地名.机构名 二.主要方法 1.使用CRF模型进行识别(识别对象都是最基础的序列,所以使用了好评率较高的序列识别算法C ...

随机推荐

  1. Lua 语言环境安装

    Linux 系统上安装(本文使用了5..0版本进行安装:) curl -R -O http://www.lua.org/ftp/lua-.tar.gz tar zxf lua-.tar.gz cd l ...

  2. 移动端滑动轮播,原生JS

    因为公司需要自定义两个轮播图联动,又不想引入第三方库,所以自己研究了下. 下面只是一个简单的轮播图,由此再拓展一下即可实现两个轮播图联动. <!DOCTYPE html> <html ...

  3. Golang 容器和不同header的解析

    记录一下,用golang实现一个静态资源容器,膜拜下强人 http.Handle("/", http.FileServer(http.Dir(currentPath+"/ ...

  4. 基于c#的windows基础设计(学习日记1)【关于异或运算】

    第一次接触异或运算,总体来说比哈希算法简单的多,无论是理解还是代码的难易度,唯一不好的是在固定了密钥之后,随机性就小了很多,所以安全性比起哈希算法还是有所差距. 原理在网站上很多都有所以就不再赘述了. ...

  5. QLineSeries QChartView 生成折线

    效果图 // 创建折线上点的序列 QLineSeries *splineSeries = new QLineSeries(); //QSplineSeries *splineSeries = new ...

  6. 简单函数template max

    #include <iostream> #include <vector> #include <algorithm> #include <string> ...

  7. linux快捷键 常用快捷键

    常用的快捷键 'ctrl+c' 强制终止当前命令 'ctrl+l' 清屏 'ctrl+a' 光标移动到命令行首 'ctrl+e' 光标移动到命令行尾 'ctrl+u' 从光标所在的位置删除到行首 'c ...

  8. 兼容 Spring Boot 1.x 和 2.x 配置类参数绑定的工具类 SpringBootBindUtil

    为了让我提供的通用 Mapper 的 boot-starter 同时兼容 Spring Boot 1.x 和 2.x,增加了这么一个工具类. 在 Spring Boot 中,能够直接注入 XXProp ...

  9. Vuejs的$nextTick原理

    本质: nextTick,本质上是一个异步API,表示当前同步流程执行完成后再调用传入的函数. 根据环境不同,异步API的实现可以分别通过: setTimeout(0), new Promise(), ...

  10. Python编程--类的分析

    一.类的概念 python是面向对象的编程语言,详细来说,我们把一类相同的事物叫做类,其中用相同的属性(其实就是变量描述),里面封装了相同的方法,比如:汽车是一个类,它包括价格.品牌等属性.那么我们如 ...