Python自然语言处理

有监督分类过程

![enter image description here][1]
例子：涉及一个特征器，给定一个姓名分析出是男性名字还是女性名字

分析：男性和女性的名字有一些鲜明的特点。以a，e 和i 结尾的很可能是女性，而
以k，o，r，s 结尾的很可能是男性。让我们建立一个分类器更精确地模拟这些差异。

特征提取器：名字最后一个字母

![enter image description here][2]

数据准备：

![enter image description here][3]

特征抽取,训练集测试集划分

![enter image description here][4]

模型生成

>>classifier=nltk.NaiveBayesClassifier.train(train_set)

准确率统计

>> print nltk.classify.accuracy(classifier, test_set)
0.758

似然比

>> classifier.show_most_informative_features(5)
我们可以看出最有区分度的5个特征
Most Informative Features
last_letter = ‘a’ female : male = 38.3 : 1.0
last_letter = 'k‘ male : female = 31.4 : 1.0
last_letter = ‘f’ male : female = 15.3 : 1.0
last_letter = 'p‘ male : female = 10.6 : 1.0
last_letter = ‘w’ male : female = 10.6 : 1.0

如何选择正确的特征选择相关的特征，并决定如何为一个学习方法编码它们，这对学习方法提取一个好的模型可以产生巨大的影响。建立一个分类器的很多有趣的工作之一是找出哪些特征可能是相关的，以及我们如何能够表示它们。虽然使用相当简单而明显的特征集往往可以得到像样的性能，但是使用精心构建的基于对当前任务的透彻理解的特征，通常会显著提高收益。典型地，特征提取通过反复试验和错误的过程建立的，由哪些信息是与问题相关的直觉指引的。它通常以“厨房水槽”的方法开始，包括你能想到的所有特征，然后检查哪些特征是实际有用

>>def gender_features2(name):

features = {}
features["firstletter"] = name[0].lower()
features["lastletter"] = name[–1].lower()
for letter in 'abcdefghijklmnopqrstuvwxyz':
features["count(%s)" % letter] = name.lower().count(letter)
features["has(%s)" % letter] = (letter in name.lower())
return features

我们看一下John这个名字的特征

>> gender_features2('John')
{'count(j)': 1, 'has(d)': False, 'count(b)': 0, ...}

我们来看一下精度：

>>> print nltk.classify.accuracy(classifier, test_set)
0.748
结果精度下降了一个百分点，事实告诉我们不是特征越多越好给定的学习算法的特征的数目是有限的，如果你提供太多的特征，那么该算法将高度依赖训练数据的特性而一般化到新的例子的效果不会很好。这个问题被称为过拟合一旦初始特征集被选定，完善特征集的一个非常有成效的方法是错误分析。首先，我们选择一个开发集，包含用于创建模型的语料数据。然后将这种开发集分为训练集和开发测试集。
>>> train_names = names[1500:]
>>> devtest_names = names[500:1500]
>>> test_names = names[:500]

训练集用于训练模型，开发测试集用于进行错误分析，测试集用于系统的最终评估

![enter image description here][5]
我们用这个思路看下第一个特征抽取器能不能给我们带来什么启发
>>> train_set = [(gender_features(n), g) for (n,g) in train_names]
>>> devtest_set = [(gender_features(n), g) for (n,g) in devtest_names]
>>> test_set = [(gender_features(n), g) for (n,g) in test_names]
>>> classifier = nltk.NaiveBayesClassifier.train(train_set)