Python自然语言处理学习笔记之性别识别

　　从今天起开始写自然语言处理的实践用法，今天学了文本分类，并没用什么创新的东西，只是把学到的知识点复习一下

性别识别（根据给定的名字确定性别）

　　第一步是创建一个特征提取函数（feature extractor）：该函数建立了一个字典，包含给定姓名的有关特征信息。

>>> def gender_features(word):

...     return {'last_letter': word[-1]}

>>> gender_features('Shrek')

{'last_letter': 'k'}

　　第二步是准备数据集，该步通过导入现成的NLTK语料库实现

>>> from nltk.corpus import names

>>> labeled_names = ([(name, 'male') for name in names.words('male.txt')] +

... [(name, 'female') for name in names.words('female.txt')])

>>> import random

>>> random.shuffle(labeled_names)

其中random.shuffle（）的功能是将给定的列表顺序打乱，如：

>>> test=[1,2,3,4,5,6,7,8,9]

>>> random.shuffle(test)

>>> test

[5, 7, 8, 1, 4, 2, 6, 3, 9]

　　第三步利用特征提取函数对数据集进行处理，生成产生分类器所需要的数据集featuresets，并将数据集featuresets分成训练集和测试集，最后利用NLTK工具包自带的方法

nltk.NaiveBayesClassifier.train()生成一个朴素贝叶斯分类器。

>>> featuresets = [(gender_features(n), gender) for (n, gender) in labeled_names]

>>> train_set, test_set = featuresets[500:], featuresets[:500]

>>> classifier = nltk.NaiveBayesClassifier.train(train_set)

我们还可以使用方法nltk.classify.accuracy(classifier,test_set)来测试分类器的准确率，使用方法classifier.show_most_informative_features(n)来观察对哪些特征该分类器的准确率最高。

>>> classifier.show_most_informative_features(5)

Most Informative Features

             last_letter = 'a'            female : male   =     33.2 : 1.0

             last_letter = 'k'              male : female =     32.6 : 1.0

             last_letter = 'p'              male : female =     19.7 : 1.0

             last_letter = 'v'              male : female =     18.6 : 1.0

             last_letter = 'f'              male : female =     17.3 : 1.0

上面的哪些比率被称为似然比likelihood ratios，例如33.2:1.0表示当名字以字母a结尾时，那这个人事女性的概率时男性的33.2倍。

　　当数据集比较大时，建立包含所有案例特称的列表会占用大量的内存，这时可以用方法nltk.classify.apply_features(),该方法会返回一个类似列表的对象，对不会把所有的特征都放到内存中。

>>> from nltk.classify import apply_features

>>> train_set = apply_features(gender_features, labeled_names[500:])

>>> test_set = apply_features(gender_features, labeled_names[:500])

Python自然语言处理学习笔记之性别识别的更多相关文章

python自然语言处理学习笔记1
1.搭建环境下载anaconda并安装,(其自带python2.7和一些常用包,NumPy,Matplotlib),第一次启动使用spyder 2.下载nltk import nltk nltk.d ...
Python自然语言处理学习笔记之信息提取步骤&分块（chunking）
一.信息提取模型信息提取的步骤共分为五步,原始数据为未经处理的字符串, 第一步:分句,用nltk.sent_tokenize(text)实现,得到一个list of strings 第二步:分词,[ ...
Python自然语言处理学习笔记之选择正确的特征（错误分析 error analysis）
选择合适的特征(features)对机器学习的效率非常重要.特征的提取是一个不断摸索的过程(trial-and-error),一般靠直觉来发现哪些特征对研究的问题是相关的. 一种做法是把你能想到的所有 ...
python自然语言处理——学习笔记：Chapter3纠错
2017-12-06更新:很多代码执行结果与书中不一致,是因为python的版本不一致.如果发现有问题,可以参考英文版: http://www.nltk.org/book/ 第三章,P87有一段处理h ...
python自然语言处理学习笔记2
基础语法搜索文本----词语索引使我们看到词的上下 text1.concordance("monstrous") 词出现在相似的上下文中 text1.similar(" ...
Python自然语言处理学习笔记(69)
http://www.cnblogs.com/yuxc/archive/2012/02/09/2344474.html Chapter8 Analyzing Sentence Structure ...
Python自然语言处理学习笔记之评价（evaluationd）
对模型的评价是在test set上进行的,本文首先介绍测试集应该满足的特征,然后介绍四种评价方法. 一.测试集的选择 1.首先,测试集必须是严格独立于训练集的,否则评价结果一定很高,但是虚高,不适用于 ...
基于深度学习的人脸性别识别系统（含UI界面，Python代码）
摘要:人脸性别识别是人脸识别领域的一个热门方向,本文详细介绍基于深度学习的人脸性别识别系统,在介绍算法原理的同时,给出Python的实现代码以及PyQt的UI界面.在界面中可以选择人脸图片.视频进行检 ...
Requests:Python HTTP Module学习笔记（一）（转）
Requests:Python HTTP Module学习笔记(一) 在学习用python写爬虫的时候用到了Requests这个Http网络库,这个库简单好用并且功能强大,完全可以代替python的标 ...

随机推荐

Hadoop详解一：Hadoop简介
从数据爆炸开始... 一. 第三次工业革命第一次:18世纪60年代,手工工厂向机器大生产过渡,以蒸汽机的发明和使用为标志. 第二次:19世纪70年代,各种新技术新发明不断被应 ...
Zbus 笔记
http://blog.csdn.net/cx308679291/article/details/50113257 Zbus学习笔记标签: zbus 2015-11-30 15:55 266人阅读 ...
Xcode7 新添旧版模拟器方法
http://blog.csdn.net/xiaoluodecai/article/details/48649697 更新了最新的Xcode后,总是仅保留最新的模拟器,如iOS9.0,如果此时想添加以 ...
Mac搭建Hadoop源码阅读环境
1.本次Hadoop源码阅读环境使用的阅读工具是idea,Hadoop版本是2.7.3.需要安装的工具包括idea.jdk.maven.protobuf等 2.jdk,使用的版本是1.8版,在jdk官 ...
iOS开发——浅谈构架与用户体验
工作不是千篇一律的重复,从中寻找乐趣才是我们应该做的. 作为一名码农,做过几个项目,每次做项目的时候都会自己构思,如果完全是我自己设计,会怎么去设计?心里一直没有满意的答案,不管怎么布局,好像都感觉差 ...
Thinking in scala (1)----类
ChecksumAccumulator.scala import scala.collection.mutable.Map class ChecksumAccumulator { private va ...
_foreach
从JDK1.5之后增加的foreach循环取消索引 for(类型变量 : 数组 | 集合){ 每一次循环会自动将数组内容设置给变量 } 范例: ,,,} ; for(int x : i){ Syst ...
51nod1126(矩阵快速幂)
题目链接:https://www.51nod.com/onlineJudge/questionCode.html#!problemId=1126 题意:中文题诶- 思路:构造矩阵: ( 0, 1 )^ ...
有限状态机（Finite-state machine）
var menu = { // 当前状态 currentState: 'hide', // 绑定事件 initialize: function() { var self = this; self.on ...
UWP 中实现一个颜色选择器 UWPColorPickerControl
最近在实现一个远程数字白板时,发现UWP平台上颜色选择不方便,因此自己动手写了一个. 效果图实现 <UserControl x:Class="UWPColorPickerLibrar ...

Python自然语言处理学习笔记之性别识别

Python自然语言处理学习笔记之性别识别的更多相关文章

随机推荐

热门专题