朴素贝叶斯分类器模型(Naive Bayles)

Model basic introduction:

　　朴素贝叶斯分类器是通过数学家贝叶斯的贝叶斯理论构造的,下面先简单介绍贝叶斯的几个公式:

先验概率： P(X) or P(Y)

条件概率： P(X|Y)=P(XY)\P(Y) => P(XY)=P(X|Y)*P(Y) ①

后验概率： P(Y|X)=P(YX)\P(X) 结合①式可以推导=> P(Y|X)=P(X|Y)*P(Y)\P(X)

朴素贝叶斯分类器：它可以计算数据的每一个维度被分到某一个类的概率。倘若一个数据有n个维度的特征，用X={x1,x2,x3,x4,x5,….,xn}来表示，类别有K个，用Y={y1,y2,y3,y4,y5,…,yk}来表示。那么X被分到i类的概率就可以用一个公式来表示：

P(Y=y(i) | X) = P(X | Y=y(i) ) *P( Y=y(i) ) \ P(X)

朴素贝叶斯的目的就是找到向量X属于最大概率的类别,所以 argmax P(Y|X)=argmaxP(x1,x2,x3,x4…|Y)*P(Y) 因为朴素贝叶斯的每个特征假设都是独立的，所以将每个特征进行单独计算。

利用SVC分类器对文本进行分类：

对文本单词进行统计，统计出所有单词（去除重复的），然后将这些单词作为特征向量，将行数作为维度。

① ：分割数据集

② ：使用特征向量化库对文本进行特征向量转化（将文本转化成多维度的特征向量）

③ ：初始化SVC模型，用分割好的训练数据，训练模型，使模型get到参数

④ ：用训练好的模型，预测X_test

⑤ ：用svc自带的评估来评估模型，用classification_report对预测结果（分类器性能）评估

from sklearn.datasets import fetch_20newsgroups

news = fetch_20newsgroups(subset='all')

from string import punctuation

table = str.maketrans(' ',' ',punctuation)

st = [w.translate(table) for w in news.data]

from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test = train_test_split(news.data,news.target,test_size=0.25,random_state=33,stratify=news.target)

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.feature_extraction.text import TfidfVectorizer,TfidfTransformer

from sklearn.metrics import classification_report

#运用tfidf来特征向量化

tfidf_filter_vec=TfidfVectorizer(max_df=0.045,binary=True,stop_words='english',ngram_range=(1,2),smooth_idf=True,sublinear_tf=True)

X_tfidf_filter_train = tfidf_filter_vec.fit_transform(X_train)

X_tfidf_filter_test = tfidf_filter_vec.transform(X_test)

#svc

from sklearn.svm import LinearSVC

svc=LinearSVC()

svc.fit(X_tfidf_filter_train,y_train)

svc_pred = svc.predict(X_tfidf_filter_test)

print('svc',svc.score(X_tfidf_filter_test,y_test))

SVC评估结果为： 0.941213921901528

机器学习朴素贝叶斯 SVC对新闻文本进行分类的更多相关文章

朴素贝叶斯算法——实现新闻分类（Sklearn实现）
1.朴素贝叶斯实现新闻分类的步骤 (1)提供文本文件,即数据集下载 (2)准备数据将数据集划分为训练集和测试集:使用jieba模块进行分词,词频统计,停用词过滤,文本特征提取,将文本数据向量化停用 ...
Python之机器学习-朴素贝叶斯(垃圾邮件分类)
目录朴素贝叶斯(垃圾邮件分类) 邮箱训练集下载地址模块导入文本预处理遍历邮件训练模型测试模型朴素贝叶斯(垃圾邮件分类) 邮箱训练集下载地址邮箱训练集可以加我微信:nickchen121 ...
spark 机器学习朴素贝叶斯实现(二)
已知10月份10-22日网球场地,会员打球情况通过朴素贝叶斯算法,预测23,24号是否适合打网球.结果,日期,天气温度风速结果(0否,1是)天气(0晴天,1阴天,2下雨)温度(0热,1舒适,2冷) ...
spark 机器学习朴素贝叶斯原理(一)
朴素贝叶斯算法仍然是流行的挖掘算法之一,该算法是有监督的学习算法,解决的是分类问题,如客户是否流失.是否值得投资.信用等级评定等多分类问题.该算法的优点在于简单易懂.学习效率高.在某些领域的分类问题中 ...
机器学习---朴素贝叶斯与逻辑回归的区别（Machine Learning Naive Bayes Logistic Regression Difference）
朴素贝叶斯与逻辑回归的区别: 朴素贝叶斯逻辑回归生成模型(Generative model) 判别模型(Discriminative model) 对特征x和目标y的联合分布P(x,y)建模,使用 ...
什么是机器学习的分类算法？【K-近邻算法(KNN)、交叉验证、朴素贝叶斯算法、决策树、随机森林】
1.K-近邻算法(KNN) 1.1 定义 (KNN,K-NearestNeighbor) 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类 ...
机器学习：python中如何使用朴素贝叶斯算法
这里再重复一下标题为什么是"使用"而不是"实现": 首先,专业人士提供的算法比我们自己写的算法无论是效率还是正确率上都要高. 其次,对于数学不好的人来说,为了实 ...
AI学习---分类算法[K-近邻 + 朴素贝叶斯 + 决策树 + 随机森林 ]
分类算法:对目标值进行分类的算法 1.sklearn转换器(特征工程)和预估器(机器学习) 2.KNN算法(根据邻居确定类别 + 欧氏距离 + k的确定),时间复杂度高,适合小数据 ...
朴素贝叶斯算法下的情感分析——C#编程实现
这篇文章做了什么朴素贝叶斯算法是机器学习中非常重要的分类算法,用途十分广泛,如垃圾邮件处理等.而情感分析(Sentiment Analysis)是自然语言处理(Natural Language Pr ...

随机推荐

sipp命令各参数含义
sipp -sn uac 172.31.89.4:5060 -r 1 -rp 3000 -inf data.csv -p 7098 -i 172.31.89.242 -s 8001 -sf uac_o ...
项目构建工具之gradle
groovy的高级特性: 可选的类型定义 def.assert.括号是可选的.字符串 .集合API.闭包: 构建脚本项目project : group name version apply depe ...
重拾MVC——第一天：数据库连接与SqlDbHelper
这个 SqlDbHelper 是我参考网上的和以前用过的 SqlDbHelper 自己写的一个非常简单的东西,主要是记录自己的学习情况首先在Web.config中配置数据库连接字符串: <co ...
STM32点亮LED
原理图测试灯,接GPIO外设B,Pin 12 举例前提,工程模版建立好 #include "stm32f10x.h" void delay(u32 i) { while(i-- ...
shell脚本——字符串
printf printf "%-10s %-10s %-10s\n" NO Name Height printf "%-10s %-10s %-10d\n&quo ...
zookeeper不停的拒绝client连接
1 自己重建了Zookeeper集群,但是之前的应用依赖的事务是前一个Zookeeper的集群的,所以无法识别,重启一下应用就好了
二十：强类型HTML辅助方法
1. 强类型HTML辅助方法的使用 1. HTML辅助方法例如,要输出一个文本框 @Html.TextBox("email") 2.强类型HTML辅助方法命名规则是: HTML ...
swagger2注解使用方法
swagger注解整体说明: @Api:用在请求的类上,表示对类的说明 tags="说明该类的作用,可以在UI界面上看到的注解" value="该参数没什么意义,在UI界 ...
两个对象的 hashCode()相同，则 equals()也一定为 true，对吗？（未完成）
两个对象的 hashCode()相同,则 equals()也一定为 true,对吗?(未完成)
java 值传递还是引用传递
首先看一下这篇文章 -- 跳这篇文章就进行了大致的介绍,以及一些简单的例子,但是还缺少一个关键的例子: public class QQ { public static void main(Strin ...

机器学习朴素贝叶斯 SVC对新闻文本进行分类