NLTK学习笔记(五):分类和标注词汇

词性标注器
标注语料库
自动标注
N-gram标注
基于转换的标注：Brill标注器

词性标注器

之后的很多工作都需要标注完的词汇。nltk自带英文标注器pos_tag

import nltk

text = nltk.word_tokenize("And now for something compleyely difference")

print(text)

print(nltk.pos_tag(text))

标注语料库

表示已经标注的标识符:`nltk.tag.str2tuple('word/类型')`

text = "The/AT grand/JJ is/VBD ."

print([nltk.tag.str2tuple(t) for t in text.split()])

读取已经标注的语料库

nltk语料库ue肚脐提供了统一接口，可以不必理会不同的文件格式。格式:语料库.tagged_word()/tagged_sents()。参数可以指定categories和fields

print(nltk.corpus.brown.tagged_words())

名词、动词、形容词等

这里以名词为例

from nltk.corpus import brown

word_tag = nltk.FreqDist(brown.tagged_words(categories="news"))

print([word+'/'+tag for (word,tag)in word_tag if tag.startswith('V')])

################下面是查找money的不同标注#################################

wsj = brown.tagged_words(categories="news")

cfd = nltk.ConditionalFreqDist(wsj)

print(cfd['money'].keys())

尝试找出每个名词类型中最频繁的名词

def findtag(tag_prefix,tagged_text):

    cfd = nltk.ConditionalFreqDist((tag,word) for (word,tag) in tagged_text if tag.startswith(tag_prefix))

    return dict((tag,list(cfd[tag].keys())[:5]) for tag in cfd.conditions())#数据类型必须转换为list才能进行切片操作

tagdict = findtag('NN',nltk.corpus.brown.tagged_words(categories="news"))

for tag in sorted(tagdict):

    print(tag,tagdict[tag])

探索已经标注的语料库

需要nltk.bigrams()和nltk.trigrams()，分别对应2-gram模型和3-gram模型。

brown_tagged = brown.tagged_words(categories="learned")

tags = [b[1] for (a,b) in nltk.bigrams(brown_tagged) if a[0]=="often"]

fd = nltk.FreqDist(tags)

fd.tabulate()

自动标注

默认标注器

最简单的标注器是为每个标识符分配统一标记。下面就是一个将所有词都变成NN的标注器。并且用evaluate()进行检验。当很多词语是名词时候，它有利于第一次分析并提高稳定性。

brown_tagged_sents = brown.tagged_sents(categories="news")

raw = 'I do not like eggs and ham, I do not like them Sam I am'

tokens = nltk.word_tokenize(raw)

default_tagger = nltk.DefaultTagger('NN')#创建标注器

print(default_tagger.tag(tokens)) # 调用tag()方法进行标注

print(default_tagger.evaluate(brown_tagged_sents))

正则表达式标注器

注意这里规则是固定（由自己决定）。当规则越来越完善的时候，精确度越高。

patterns = [

    (r'.*ing$','VBG'),

    (r'.*ed$','VBD'),

    (r'.*es$','VBZ'),

    (r'.*','NN')#为了方便，只有少量规则

]

regexp_tagger = nltk.RegexpTagger(patterns)

regexp_tagger.evaluate(brown_tagged_sents)

查询标注器

这里和书里是有差别的，不同于python2，注意调试。而查询标注器就是存储最有可能的标记，并且可以设置backoff参数，不能标记的情况下，就使用这个标注器（这个过程是回退）

fd = nltk.FreqDist(brown.words(categories="news"))

cfd = nltk.ConditionalFreqDist(brown.tagged_words(categories="news"))

##############################################python2和3的区别#########

most_freq_words = fd.most_common(100)

likely_tags = dict((word,cfd[word].max()) for (word,times) in most_freq_words)

#######################################################################

baseline_tagger = nltk.UnigramTagger(model=likely_tags,backoff=nltk.DefaultTagger('NN'))

baseline_tagger.evaluate(brown_tagged_sents)

N-gram标注

基础的一元标注器

一元标注器的行为和查找标注器很相似，建立一元标注器的技术，为训练。

这里我们的标注器只是记忆训练集，而不是建立一般模型，那么吻合很好，但是不能推广到新文本。

size = int(len(brown_tagged_sents)*0.9)

train_sents = brown_tagged_sents[:size]

test_sents = brown_tagged_sents[size+1:]

unigram_tagger = nltk.UnigramTagger(train_sents)

unigram_tagger.evaluate(test_sents)

一般的N-gram标注器

N元标注器，就是检索index= n 的 word，并且检索n-N<=index<=n-1 的 tag。即通过前面词的tag标签，进一步确定当前词汇的tag。类似于nltk.UnigramTagger()，自带的二元标注器为:nltk.BigramTagger()用法一致。

组合标注器

很多时候，覆盖范围更广的算法比精度更高的算法更有用。利用backoff指明回退标注器,来实现标注器的组合。而参数cutoff显式声明为int型，则会自动丢弃只出现1-n次的上下文。

t0 = nltk.DefaultTagger('NN')

t1 = nltk.UnigramTagger(train_sents,backoff=t0)

t2 = nltk.BigramTagger(train_sents,backoff=t1)

t2.evaluate(test_sents)

可以发现，和原来比较之后，精确度明显提高

跨句子边界标注

对于句首的单词，没有前n个单词。解决方法：通过已标记的tagged_sents来训练标注器。

基于转换的标注：Brill标注器

较上面的都优秀。实现的思路：以大笔化开始，然后修复细节，一点点进行细致改变。
不仅占用内存小，而且关联上下文，并且根据问题的变小，实时修正错误，而不是一成不变的。当然，在python3和python2的调用有所不同。

from nltk.tag import brill

brill.nltkdemo18plus()

brill.nltkdemo18()

欢迎进一步交流本博文相关内容：

博客园地址 : http://www.cnblogs.com/AsuraDong/

CSDN地址 : http://blog.csdn.net/asuradong

也可以致信进行交流 : xiaochiyijiu@163.com

欢迎转载 , 但请指明出处 : )

NLTK学习笔记(五):分类和标注词汇的更多相关文章

莫烦PyTorch学习笔记(五)——分类
import torch from torch.autograd import Variable import torch.nn.functional as F import matplotlib.p ...
C#可扩展编程之MEF学习笔记(五)：MEF高级进阶
好久没有写博客了,今天抽空继续写MEF系列的文章.有园友提出这种系列的文章要做个目录,看起来方便,所以就抽空做了一个,放到每篇文章的最后. 前面四篇讲了MEF的基础知识,学完了前四篇,MEF中比较常用 ...
（转）Qt Model/View 学习笔记 (五)——View 类
Qt Model/View 学习笔记 (五) View 类概念在model/view架构中,view从model中获得数据项然后显示给用户.数据显示的方式不必与model提供的表示方式相同,可以与 ...
java之jvm学习笔记五(实践写自己的类装载器)
java之jvm学习笔记五(实践写自己的类装载器) 课程源码:http://download.csdn.net/detail/yfqnihao/4866501 前面第三和第四节我们一直在强调一句话,类 ...
Learning ROS for Robotics Programming Second Edition学习笔记(五) indigo computer vision
中文译著已经出版,详情请参考:http://blog.csdn.net/ZhangRelay/article/category/6506865 Learning ROS for Robotics Pr ...
Typescript 学习笔记五：类
中文网:https://www.tslang.cn/ 官网:http://www.typescriptlang.org/ 目录: Typescript 学习笔记一:介绍.安装.编译 Typescrip ...
ES6学习笔记<五> Module的操作——import、export、as
import export 这两个家伙对应的就是es6自己的 module功能. 我们之前写的Javascript一直都没有模块化的体系,无法将一个庞大的js工程拆分成一个个功能相对独立但相互依赖的小 ...
muduo网络库学习笔记(五) 链接器Connector与监听器Acceptor
目录 muduo网络库学习笔记(五) 链接器Connector与监听器Acceptor Connector 系统函数connect 处理非阻塞connect的步骤: Connetor时序图 Accep ...
python3.4学习笔记(五) IDLE显示行号问题，插件安装和其他开发工具介绍
python3.4学习笔记(五) IDLE显示行号问题,插件安装和其他开发工具介绍 IDLE默认不能显示行号,使用ALT+G 跳到对应行号,在右下角有显示光标所在行.列.pycharm免费社区版.Su ...

随机推荐

Facebook图搜索unicorn
unicorn(独角兽),里面类似于倒排链的reference list,相应的term如friend:2,表示entity 2的朋友列表,整个结构是shard的,上面是top aggregator, ...
十分钟学会canvas
一句话描述:canvas是HTML5加入的用来绘制2D图像与文字的元素. 基础简单步骤: var c = document.getElementById("mycanvas"); ...
B3402 [Usaco2009 Open]Hide and Seek 捉迷藏最短路
直接最短路板子,dij堆优化. 题干: 题目描述贝茜在和约翰玩一个“捉迷藏”的游戏．她正要找出所有适合她躲藏的安全牛棚．一共有N(≤N≤)个牛棚,被编为1到N号．她知道约翰(捉牛者)从牛棚1出发． ...
Spark底层原理简化版
目录 Spark SQL/DF的执行过程集群运行部分 Aggregation Join Shuffle Tungsten 内存管理机制缓存敏感计算(Cacheaware computation) ...
BZOJ 1511 KMP
题意:求出每个前缀的最长周期之和(等于本身的算0) 思路: 求出来next数组建出next树找到不为0的最小的 n减去它就是答案 //By SiriusRen #include <cstd ...
QQ 临时会话+图标 HTML代码
啦啦啦 QQ会话的HTML代码 <a target="_blank" href="http://wpa.qq.com/msgrd?v=3& uin=2553 ...
C#开发微信公众号——网页开发之微信网页授权
首先咱们先看下公众号的文档里面的介绍上述图片的文字描述就是讲述了网页授权有什么用,就是为了获取微信用户的基本信息:授权回调域名的规范,说到域名回调的事情就不得不提一下设置网页授权域名最好将这三个域 ...
5.13Mysql数据库Database
数据库的基本概念 1.什么是数据库: 用于存储和管理数据的仓库. 2.数据库的特点: 1.持久化存储数据的.其实数据库就是一个文件系统. 2.方便存储和管理数据 3.使用了统一的方式操作数据库---s ...
JavaScript异步加载方案
(1) defer,只支持IE defer属性的定义和用法(我摘自w3school网站) defer 属性规定是否对脚本执行进行延迟,直到页面加载为止. 有的 javascript 脚本 docume ...
通过Web Service实现IP地址查询功能
实例01 实现一个简单的Web服务访问本实例将实现IP地址查询接口服务,根据用户传入的IP地址返回IP所在的省.市.地区,实例中将会用到IP地址库用于查询信息,由于数据较多,所以读者可在光盘资源文件 ...

NLTK学习笔记(五):分类和标注词汇

词性标注器

标注语料库

表示已经标注的标识符:nltk.tag.str2tuple('word/类型')

读取已经标注的语料库

名词、动词、形容词等

尝试找出每个名词类型中最频繁的名词

探索已经标注的语料库

自动标注

默认标注器

正则表达式标注器

查询标注器

N-gram标注

基础的一元标注器

一般的N-gram标注器

组合标注器

跨句子边界标注

基于转换的标注：Brill标注器

NLTK学习笔记(五):分类和标注词汇的更多相关文章

随机推荐

热门专题

表示已经标注的标识符:`nltk.tag.str2tuple('word/类型')`