nltk-贝叶斯分类器

本人小白一枚，专业统计，之前做过质量工程，现转行将近一年，开始记录我的学习过程及踩过的坑。

第一篇：用贝叶斯分类器（本文使用NLTK中的NaiveBayesClassifier）将5000多个样本进行分类，判断是否属于脑科学，样本存储为excel格式，选取特征值分类号前四位及摘要（先结巴分词）按频率计数。

首先要搞清楚做这个分类模型的思路：

读取文本—清洗文本—获取特征词列表—定义特征提取器—构造特征集—朴素贝叶斯分类器—评价结果

在做这个分类器之前我对贝叶斯分类器不太了解，所以遇到很多问题，最重要的问题就是分类器的传入参数，因为他有固定的参数形式，否则就会报错，参数形式如下：

[

({"特征1":value1,"特征2":value2..."特征n":valuen},label),

({"特征1":value1,"特征2":特征2..."特征n":valuen},label),

...

]

这是一个三层复合结构，首先它是一个list，第二层是一个元组，最里面是一个字典

把这个问题搞清楚了其他问题就好办了。

1. 读取数据

path=os.getcwd()+'\\data_checked.xlsx'
df_data = pd.read_excel(path)
dataSetNP = np.array(df_data)
NP_row=len(dataSetNP)

在这里我使用的是pandas 和numpy将数据化为多维数组进行读取，

每一行用dataSetNP[i]，每一列用dataSetNP[：][j]

2.取特征值

取ipc前四位不重复

Content_IPC_Num =set([j[:4] for j in [w for w in dataSetNP[:,1]]])

摘要分词，原来用停词表做的代码比较冗余

# 获取高频词列表--特征1

def abstract_fre_list(abst):
    content_abst_allwords=[x.word for x in psg.cut(abst) if not re.findall(r'm|mq|q|qv|qt', x.flag)]
    with open("stopwords.txt", encoding='utf-8') as f:
        stopwords = f.read()
        content_abst_cleanwords=[w for w in content_abst_allwords if w not in stopwords]
        content_abst_freword=nltk.FreqDist(content_abst_cleanwords)
        content_abst_freword = content_abst_freword.most_common(2000)
        feature_abst_list=[w[0] for w in content_abst_freword]
    return feature_abst_list

Content_abst_words=abstract_fre_list(get_data(3))#高频词列表

可以改进一下变成如下形式：

with open("stopwords.txt", encoding='utf-8') as f:
    stopwords = f.read()
    sbste=str([j for j in dataSetNP[: ,3]])
    allwords_stop=[x.word for x in psg.cut(sbste) if not re.findall(r'm|mq|q|qv|qt', x.flag)]
    word_all=nltk.FreqDist(reduce(lambda x,y:x+y,allwords_stop))
    Content_abst_words2=[i[0] for i in word_all.most_common(2000)if i[0] not in stopwords]

3.构造特征提取器

def gender_features(IPC,abstract):
    features={}
    for IPC_num in range(len(Content_IPC_Num)):
        features["IPC_has({})".format(Content_IPC_Num[IPC_num])]=(Content_IPC_Num[IPC_num] in IPC)
    for abstract_num in range(len(Content_abst_words)):
        features["abstract_has({})".format(Content_abst_words[abstract_num])]=(Content_abst_words[abstract_num] in abstract)
    return features

4.构造特征集

# 构造特征集

size = int(NP_row * 0.1)
features_apply= []
for i,apply_class in enumerate(list(dataSetNP[:, 8])):
    features_apply.append((gender_features(dataSetNP[:, 1][i] ,dataSetNP[:, 3][i]), apply_class))
random.shuffle(features_apply)
test_set_apply,train_set_apply = features_apply[:size], features_apply[size:]

features_tech = []
for w,tech_class in enumerate(list(dataSetNP[:, 9])):
    features_tech.append((gender_features(dataSetNP[:, 1][w], dataSetNP[:, 3][w]), tech_class))
random.shuffle(features_tech)
test_set_tech,train_set_tech = features_tech[:size],features_tech[size:]

5.贝叶斯分类器

classifier_apply = nltk.NaiveBayesClassifier.train(train_set_apply)
classifier_tech = nltk.NaiveBayesClassifier.train(train_set_tech)

6.评价

#精确度-召回率-分类准确率分数
predict_test_apply=[]#预测值
predict_test_tech=[]
for i in range(size):
    predict_apply=classifier_apply.classify(gender_features(dataSetNP[:,1][i],dataSetNP[:,3][i]))
    predict_tech = classifier_tech.classify(gender_features(dataSetNP[:,1][i],dataSetNP[:,3][i]))
    predict_test_apply.append(predict_apply)
    predict_test_tech.append(predict_tech)
actual_test_apply=list(dataSetNP[:,8][:size])#真实值
actual_test_tech=list(dataSetNP[:,9][:size])
 '''或者预测值+真实值

predict_test_apply2 = [classifier_apply[app[0]] for app in test_set_apply]
predict_test_tech2 = [classifier_tech[tech[0]] for tech in test_set_tech]
actual_test_apply2 = [i[1] for i in test_set_apply]
actual_test_tech2 = [i[1] for i in test_set_tech]'''


def evaluate(Y_actual,Y_pre):
    brain_sci_precison = metrics.precision_score(Y_actual, Y_pre, average='macro')
    brain_sci_recall = metrics.recall_score(Y_actual, Y_pre, average='macro')
    brain_sci_accuracy = metrics.accuracy_score(Y_actual, Y_pre, normalize=True)
    return brain_sci_precison, brain_sci_recall,brain_sci_accuracy
evaluate_apply=evaluate(actual_test_apply,predict_test_apply)
evaluate_tech = evaluate(actual_test_tech,predict_test_tech)
print("应用-精确度、召回率、分类准确率分数分别为 {}".format(evaluate_apply))
print("技术-精确度、召回率、分类准确率分数分别为 {}".format(evaluate_tech))

结果：

nltk-贝叶斯分类器的更多相关文章

【原创】.NET平台机器学习组件-Infer.NET连载(二)贝叶斯分类器
本博客所有文章分类的总目录:http://www.cnblogs.com/asxinyu/p/4288836.html 微软Infer.NET机器学习组件文章目录:http:/ ...
Naive Bayes Classifier 朴素贝叶斯分类器
贝叶斯分类器的分类根据实际处理的数据类型, 可以分为离散型贝叶斯分类器和连续型贝叶斯分类器, 这两种类型的分类器, 使用的计算方式是不一样的. 贝叶斯公式首先看一下贝叶斯公式 $ P\left ( ...
吴裕雄 python 机器学习——高斯贝叶斯分类器GaussianNB
import matplotlib.pyplot as plt from sklearn import datasets,naive_bayes from sklearn.model_selectio ...
SIGAI机器学习第五集贝叶斯分类器
讲授贝叶斯公式.朴素贝叶斯分类器.正态贝叶斯分类器的原理.实现以及实际应用大纲: 贝叶斯公式(直接用贝叶斯公式完成分类,计算一个样本的特征向量X属于每个类c的概率,这个计算是通过贝叶斯公式来完成的. ...
吴裕雄 python 机器学习——多项式贝叶斯分类器MultinomialNB模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,naive_bayes from skl ...
machine learning for hacker记录(3) 贝叶斯分类器
本章主要介绍了分类算法里面的一种最基本的分类器:朴素贝叶斯算法(NB),算法性能正如英文缩写的一样,很NB,尤其在垃圾邮件检测领域,关于贝叶斯的网上资料也很多,这里推荐那篇刘未鹏写的http://mi ...
贝叶斯分类器，随机森林，梯度下载森林，神经网络相关参数的意义和data leakage
构建的每一颗树的数据都是有放回的随机抽取的(也叫bootstrap),n_estimators参数是你想设置多少颗树,还有就是在进行树的结点分裂的时候,是随机选取一个特征子集,然后找到最佳的分裂标准.
sklearn.naive_bayes中几种朴素贝叶斯分类器
区别: 几种朴素贝叶斯分类器的区别在于对于分布的假设,即假设满足的形式. 一.高斯NB 导入 from sklearn.naive_bayes import GaussianNB 假设特征的似然函数满 ...
sklearn-MultinomialNB朴素贝叶斯分类器
原型 class sklearn.naive_bayes.MultinomialNB(alpha=1.0, fit_prior=True, class_prior=None) 参数 Parameter ...
朴素贝叶斯分类器Naive Bayes
优点Naive Bayes classifiers tend to perform especially well in one of the following situations: When t ...

随机推荐

C++——智能指针unique_ptr的实现
起初,我最直观的设计想法,直接设计一个类:包含全部要素(对象,指针计数).然后提供出去. class CPoint { public: CPoint(, ) : x(xVal), y(yVal) {} ...
【javaScript基础】异常处理
理解异常在javaScript面向对象编程是非常重要的,异常是一种非常强大的处理错误的方式. 错误处理首先我们来看一个有问题的代码: nonexistant(); ...
MVC object htmlAttributes，IDictionary<string, object> htmlAttributes 写法
MVC object htmlAttributes:new {style="color:red",width="12px",height="10px& ...
[蓝桥杯]PREV-13.历届试题_网络寻路
题目描述: 代码如下: #include <stdio.h> #include <stdlib.h> #include <string.h> #define LEN ...
转 Ubuntu16.04+QT4.8.7开发环境搭建
Qt安装步骤1.安装g++以及依赖库 sudo apt-get install g++ sudo apt-get install g++-multilib libx11-dev libxext-de ...
关于栈、队列、优先队列的应用——UVa11995
这本来是上一篇博客里的内容,但不知道什么原因breakdown了……我就简单放上一道题好了题意:这道题的题目是“猜猜数据结构”,题意就是给你一些输入输出数据,让你根据这些数据判断是什么数据结构.要猜 ...
转载：mongodb的两阶段提交实战
项目中用到了mongodb(3.x版本),业务上需要操作mongodb的多个collections,希望要么同时操作成功,要么回滚操作保持数据的一致性,这个实际上要求在mongodb上实现事务功能,在 ...
Stream初步应用
一.什么是stream Stream(流)是一个来自数据源的元素队列并支持聚合操作,数据来源可以从inputstream,数组,集合中获取:聚合操作可以类似SQL语句一样的操作, 比如filter, ...
学习MeteoInfo二次开发教程（九）
最终的MaskOut功能未能实现另外,一个有用的,在指定位置显示图片: legend.MarkerType = MarkerType.Image; legend.ImagePath = " ...
css选择器区别
空格选择器 ul li 选择ul 下面的所有li 元素大于号选择器 ul>li 选择ul 下面的直接子元素只能是儿子辈的不能是孙子辈的

nltk-贝叶斯分类器

nltk-贝叶斯分类器的更多相关文章

随机推荐

热门专题