Python自然语言处理学习笔记之选择正确的特征（错误分析 error analysis）

　　选择合适的特征（features）对机器学习的效率非常重要。特征的提取是一个不断摸索的过程（trial-and-error），一般靠直觉来发现哪些特征对研究的问题是相关的。

　　一种做法是把你能想到的所有特征都加进去，然后再检查哪个特征是重要的（参考资料上说这叫"kitchen sink" approach，然而并不明白这是什么意思，请大神指点！），但是包含的特征太多往往会出现过度拟合的现象（即算法会过度依赖于训练集的特征而对新的数据拟合不佳，当训练集较小时，这个问题会更明显。）

　　正确方法

　　首先确定一个初始特征集，一旦初始特征集确定后，一个比较有效的方法是通过错误分析（error analysis）来改进特征集。

　　我们需要将原始数据集分为三部分：

　　1、训练集（train set）

　　2、开发测试集（dev-test set）

　　3、测试集（test set）

其中开发测试集是用来进行错误分析的。

　　分好数据集后，我们使用训练集生成一个分类器（有关分类器的生成，可以参考之前的博客-性别分类），再在开发测试集上运行它，最后得出的准确率为0.75，代码如下：

>>> train_set = [(gender_features(n), gender) for (n, gender) in train_names]

>>> devtest_set = [(gender_features(n), gender) for (n, gender) in devtest_names]

>>> test_set = [(gender_features(n), gender) for (n, gender) in test_names]

>>> classifier = nltk.NaiveBayesClassifier.train(train_set)

>>> print(nltk.classify.accuracy(classifier, devtest_set))

0.75

　　然后我们利用开发测试集可以产生一个分类器在预测性别时的错误列表：

>>> errors = []

>>> for (name, tag) in devtest_names:

...     guess = classifier.classify(gender_features(name))

...     if guess != tag:

...         errors.append( (tag, guess, name) )

　　分析产生的错误列表，就可以知道如何改进特征集（增加，删除，改变）来提高分类的准确率：

>>> for (tag, guess, name) in sorted(errors):

...     print('correct={:<8} guess={:<8s} name={:<30}'.format(tag, guess, name))

correct=female   guess=male     name=Abigail

  ...

correct=female   guess=male     name=Cindelyn

  ...

correct=female   guess=male     name=Katheryn

correct=female   guess=male     name=Kathryn

  ...

correct=male     guess=female   name=Aldrich

　　错误分析的过程如下：从产生的错误列表可以看出，某些后缀特征比用单个字母对区分性别更有效——（虽然以n结尾的名字趋向是男性）但以字母yn结尾的名字多为女性，（以h结尾的名字多为女性），而以ch结尾的多为男性。由此，我们可以对特征提取函数做以下修改：添加每个名字的最后两个字母作为特征，代码如下：

>>> def gender_features(word):

...     return {'suffix1': word[-1:],

...             'suffix2': word[-2:]}

　　调整后，重建分类器，在开发测试集上运行，分类准确率较之前有所提升0.75-0.78。

>>> train_set = [(gender_features(n), gender) for (n, gender) in train_names]

>>> devtest_set = [(gender_features(n), gender) for (n, gender) in devtest_names]

>>> classifier = nltk.NaiveBayesClassifier.train(train_set)

>>> print(nltk.classify.accuracy(classifier, devtest_set))

0.782

　　错误分析的过程可以反复进行（事实上也应该如此），但是，注意：每次进行错误分析时都要对训练集，开发测试集重新划分，这样才能保证分类器不会过度拟合开发测试集的个别特征。

Python自然语言处理学习笔记之选择正确的特征（错误分析 error analysis）的更多相关文章

python自然语言处理学习笔记1
1.搭建环境下载anaconda并安装,(其自带python2.7和一些常用包,NumPy,Matplotlib),第一次启动使用spyder 2.下载nltk import nltk nltk.d ...
Python自然语言处理学习笔记之评价（evaluationd）
对模型的评价是在test set上进行的,本文首先介绍测试集应该满足的特征,然后介绍四种评价方法. 一.测试集的选择 1.首先,测试集必须是严格独立于训练集的,否则评价结果一定很高,但是虚高,不适用于 ...
Python自然语言处理学习笔记之性别识别
从今天起开始写自然语言处理的实践用法,今天学了文本分类,并没用什么创新的东西,只是把学到的知识点复习一下性别识别(根据给定的名字确定性别) 第一步是创建一个特征提取函数(feature extrac ...
python自然语言处理——学习笔记：Chapter3纠错
2017-12-06更新:很多代码执行结果与书中不一致,是因为python的版本不一致.如果发现有问题,可以参考英文版: http://www.nltk.org/book/ 第三章,P87有一段处理h ...
python自然语言处理学习笔记2
基础语法搜索文本----词语索引使我们看到词的上下 text1.concordance("monstrous") 词出现在相似的上下文中 text1.similar(" ...
Python自然语言处理学习笔记(69)
http://www.cnblogs.com/yuxc/archive/2012/02/09/2344474.html Chapter8 Analyzing Sentence Structure ...
Python自然语言处理学习笔记之信息提取步骤&分块（chunking）
一.信息提取模型信息提取的步骤共分为五步,原始数据为未经处理的字符串, 第一步:分句,用nltk.sent_tokenize(text)实现,得到一个list of strings 第二步:分词,[ ...
Requests:Python HTTP Module学习笔记（一）（转）
Requests:Python HTTP Module学习笔记(一) 在学习用python写爬虫的时候用到了Requests这个Http网络库,这个库简单好用并且功能强大,完全可以代替python的标 ...
python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...

随机推荐

CentOS 7.0 安装配置 kafka 消息队列
查询下载最新版本 kafka http://kafka.apache.org/downloads.html wget http://mirror.bit.edu.cn/apache/kafka/0.8 ...
CentOS 6.4 x64 Percona-Server-5.6.15 源码安装
首先下载 Percona-Server-5.6 http://www.percona.com/downloads/Percona-Server-5.6/LATEST/source/ 然后必须先安装cm ...
[Unity Asset]AssetBundle系列——游戏资源打包
转载:http://www.cnblogs.com/sifenkesi/p/3557231.html 将本地资源打包,然后放到资源服务器上供游戏客户端下载或更新.服务器上包含以下资源列表:(1)游戏内 ...
(简单) POJ 3667 Hotel，线段树+区间合并。
Description The cows are journeying north to Thunder Bay in Canada to gain cultural enrichment and e ...
python web开发基本概念
参考了廖雪峰的Python博客. web请求顺序: 浏览器发送一个http请求服务器收到请求后,生成一个html文档. 服务器将html文档作为http相应的body发送给浏览器浏览器收到http ...
STM32驱动DS18B20
DS18B20 是由 DALLAS 半导体公司推出的一种的“一线总线”接口的温度传感器.与传统的热敏电阻等测温元件相比,它是一种新型的体积小.适用电压宽.与微处理器接口简单的数字化温度传感器.一线 ...
Qt下libusb-win32的使用（转）
源:Qt下libusb-win32的使用(一)打印设备描述符主要是在前一篇的基础上,学习libusb-win32的API使用.程序很简单,就是打印指定USB设备的设备描述符(当然其他描述符也是可以的 ...
ios 屏幕方向的设置
ref: http://www.cnblogs.com/niit-soft-518/p/5611298.html 实际的项目需求.root是TabBarController,里面有4个navigati ...
iOS调用相机,相册,上传头像分类： ios技术 2015-04-14 11:23 256人阅读评论(0) 收藏
一.新建工程二.拖控件,创建映射三.在.h中加入delegate @interface ViewController : UIViewController 复制代码四.实现按钮事件 -(IBAc ...
win8.1远程连接Redis数据库
环境:redis安装在虚拟机Centos6.5系统上通过java远程连接问题一:报错 connected refused redis.conf 注释掉 #bind 127.0.0.1 问题二:还是 ...

Python自然语言处理学习笔记之选择正确的特征（错误分析 error analysis）

Python自然语言处理学习笔记之选择正确的特征（错误分析 error analysis）的更多相关文章

随机推荐

热门专题