朴素贝叶斯分类器基本代码 && n折交叉优化
自己也是刚刚入门。。
没脸把自己的代码放上去,先用别人的。
加上自己的解析,挺全面的,希望有用。
import re
import pandas as pd
import numpy as np
from sklearn.metrics import roc_auc_score
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB as MNB #朴素贝叶斯公式
from sklearn.model_selection import cross_val_score
def proces(review):
#把review转成词序列
review_text=re.sub("[^a-zA-Z]"," ",review) #非大小写字母的字符替换成空格
#re.sub是正则表达式的函数,实现比普通字符串更强大的替换功能
#print(review_text)
words=review_text.lower().split() #全转换为小写后,根据空格分割单词
#print(words)
return words
train=pd.read_csv('train.csv',lineterminator='\n') #使用pandas的read读取文件,以换行符号为止为一段数据
'''
官方文件:
pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer',
names=None, index_col=None, usecols=None, squeeze=False, prefix=None,
mangle_dupe_cols=True, dtype=None, engine=None, converters=None,
true_values=None, false_values=None, skipinitialspace=False,
skiprows=None, nrows=None, na_values=None, keep_default_na=True,
na_filter=True, verbose=False, skip_blank_lines=True,
parse_dates=False, infer_datetime_format=False, keep_date_col=False,
date_parser=None, dayfirst=False, iterator=False, chunksize=None,
compression='infer', thousands=None, decimal=b'.', lineterminator=None,
quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None,
dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True,
skipfooter=0, doublequote=True, delim_whitespace=False,
low_memory=True, memory_map=False, float_precision=None) https://blog.csdn.net/sinat_35562946/article/details/81058221
这个博客讲的还行
'''
print(train.head(5))
x=train['review']
#print(x)
y=train['label']
#print(y)
'''
x与y分离train中的记录和标签
'''
class_mapping = {'Negative': 0, 'Positive': 1} y=y.map(class_mapping)
#把label中的Negative,Positive转换成0,1标签
test=pd.read_csv('test.csv', lineterminator='\n')
z=test['review']
w=test['label']
'''
x与y分离test中的记录和标签
'''
w=w.map(class_mapping)
train_data=[]
for i in range(len(x)):
train_data.append(' '.join(proces(x[i]))) #用空格将train.data的list里的words串联在一起
pass
test_data=[]
for i in range(len(z)):
test_data.append(' '.join(proces(z[i]))) #用空格将test_data的list里的words串联在一起
pass data_all=train_data+test_data #所有词合并成大表data
#print(data_all)
#TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
count_vec = TfidfVectorizer(min_df=2, #严格忽略低于给出阈值的文档频率的词条,语料指定的停用词。
analyzer='word', #定义特征为词(word)
ngram_range=(1, 3), #ngram_range(min,max)是指将text分成min,min+1,min+2,.........max 个不同的词组
use_idf=1, #使用idf重新计算权重
smooth_idf=1, #分母加一
sublinear_tf=1, #线性缩放TF
stop_words='english' #忽略英文停用词
)
'''
min_df:float in range [0.0, 1.0] or int, optional, 1.0 by default
当构建词汇表时,严格忽略低于给出阈值的文档频率的词条,语料指定的停用词。
如果是浮点值,该参数代表文档的比例,整型绝对计数值,如果词汇表不为None,此参数被忽略。 analyzer:string,{‘word’, ‘char’} or callable
定义特征为词(word)或n-gram字符,如果传递给它的调用被用于抽取未处理输入源文件的特征序列 ngram_range: tuple(min_n, max_n)
要提取的n-gram的n-values的下限和上限范围,在min_n <= n <= max_n区间的n的全部值
中ngram_range(min,max)是指将text分成min,min+1,min+2,.........max 个不同的词组 比如'Python is useful'中ngram_range(1,3)之后可得到:
'Python' 'is' 'useful' 'Python is' 'is useful' 和'Python is useful'如果是ngram_range (1,1) 则只能得到单个单词'Python' 'is'和'useful' use_idf:boolean, optional
启动inverse-document-frequency重新计算权重 smooth_idf:boolean,optional
通过加1到文档频率(底数)平滑idf权重,为防止除零 <-> 加入一个额外的文档 sublinear_tf:boolean, optional
应用线性缩放TF,例如,使用1+log(tf)覆盖tf。注意,python中log默认取自然对数!
'''
lenth=len(train_data)
count_vec.fit(data_all)
data_all=count_vec.transform(data_all)
train_data=data_all[:lenth]
test_data=data_all[lenth:] #训练朴素贝叶斯分类器
model=MNB()
model.fit(train_data,y)
pred=model.predict(test_data)
MNB(alpha=1.0, class_prior=None, fit_prior=True)
#print("roc_auc",roc_auc_score(w, pred))
MX = 0;
for i in range(5, 10):
MX = max(MX, np.mean(cross_val_score(model, train_data, y, cv=i, scoring='roc_auc'))) #2分类模型
print("多项式贝叶斯分类器10折交叉验证得分: ", MX)
'''
不同的训练集、测试集分割的方法导致其准确率不同.
而交叉验证的基本思想是:将数据集进行一系列分割,生成一组不同的训练测试集,然后分别训练模型并计算测试准确率,
最后对结果进行平均处理。这样来有效降低测试准确率的差异。
'''
朴素贝叶斯分类器基本代码 && n折交叉优化的更多相关文章
- 朴素贝叶斯分类器基本代码 && n折交叉优化 2
这个代码基于上一个代码 不同的是:读取了txt文件,改变了min_ft与max_ft的参数 import re import pandas as pd import warnings import n ...
- 记intel杯比赛中各种bug与debug【其五】:朴素贝叶斯分类器的实现和针对性的优化
咱这个项目最主要的就是这个了 贝叶斯分类器用于做可以统计概率的二元分类 典型的例子就是垃圾邮件过滤 理论基础 对于贝叶斯算法,这里附上两个链接,便于理解: 朴素贝叶斯分类器的应用-阮一峰的网络日志 基 ...
- 文本分类(TFIDF/朴素贝叶斯分类器/TextRNN/TextCNN/TextRCNN/FastText/HAN)
目录 简介 TFIDF 朴素贝叶斯分类器 贝叶斯公式 贝叶斯决策论的理解 极大似然估计 朴素贝叶斯分类器 TextRNN TextCNN TextRCNN FastText HAN Highway N ...
- 数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes
贝叶斯分类器 贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类.眼下研究较多的贝叶斯分类器主要有四种, ...
- 用scikit-learn实现朴素贝叶斯分类器 转
原文:http://segmentfault.com/a/1190000002472791 朴素贝叶斯(Naive Bayes Classifier)是一种「天真」的算法(假定所有特征发生概率是独立的 ...
- 十大经典数据挖掘算法(9) 朴素贝叶斯分类器 Naive Bayes
贝叶斯分类器 贝叶斯分类分类原则是一个对象的通过先验概率.贝叶斯后验概率公式后计算,也就是说,该对象属于一类的概率.选择具有最大后验概率的类作为对象的类属.现在更多的研究贝叶斯分类器,有四个,每间:N ...
- 机器学习---朴素贝叶斯分类器(Machine Learning Naive Bayes Classifier)
朴素贝叶斯分类器是一组简单快速的分类算法.网上已经有很多文章介绍,比如这篇写得比较好:https://blog.csdn.net/sinat_36246371/article/details/6014 ...
- 朴素贝叶斯分类器及Python实现
贝叶斯定理 贝叶斯定理是通过对观测值概率分布的主观判断(即先验概率)进行修正的定理,在概率论中具有重要地位. 先验概率分布(边缘概率)是指基于主观判断而非样本分布的概率分布,后验概率(条件概率)是根据 ...
- 朴素贝叶斯分类器(Naive Bayes)
1. 贝叶斯定理 如果有两个事件,事件A和事件B.已知事件A发生的概率为p(A),事件B发生的概率为P(B),事件A发生的前提下.事件B发生的概率为p(B|A),事件B发生的前提下.事件A发生的概率为 ...
随机推荐
- 爬虫06 /scrapy框架
爬虫06 /scrapy框架 目录 爬虫06 /scrapy框架 1. scrapy概述/安装 2. 基本使用 1. 创建工程 2. 数据分析 3. 持久化存储 3. 全栈数据的爬取 4. 五大核心组 ...
- python 面向对象专题(十一):特殊方法 (四)__get__、__set__、__delete__ 描述符(四)描述符用法建议
使用特性以保持简单 内置的 property 类创建的其实是覆盖型描述符,__set__ 方法和__get__ 方法都实现了,即便不定义设值方法也是如此. 特性的__set__ 方法默认抛出 Attr ...
- 用前端姿势玩docker【三】基于nvm的前端环境构建技巧
前言 安装docker啥的就不说了,这里重点强调一下,docker的环境问题.本人的环境: 虚拟机centos => docker => NAT => container 因为需要不 ...
- 对Vue中的MVVM原理解析和实现
对Vue中的MVVM原理解析和实现 首先你对Vue需要有一定的了解,知道MVVM.这样才能更有助于你顺利的完成下面原理的阅读学习和编写 下面由我阿巴阿巴的详细走一遍Vue中MVVM原理的实现,这篇文章 ...
- 数据规整:连接、联合与重塑知识图谱-《利用Python进行数据分析》
所有内容整理自<利用Python进行数据分析>,使用MindMaster Pro 7.3制作,emmx格式,源文件已经上传Github,需要的同学转左上角自行下载或者右击保存图片. 其他章 ...
- git只操作某个文件夹
在我们的工作中,可能会有这样的情况发生:我只想提交某一个文件夹,而另外的文件夹我并不想提交. 遇到上述情况,我们再git中这样解决: 1.查看某个文件夹的状态(这里我用log文件夹做实验). 我们可以 ...
- 深入理解JVM(③)再谈线程安全
前言 我们在编写程序的时候,一般是有个顺序的,就是先实现再优化,并不是所有的牛P程序都是一次就写出来的,肯定都是不断的优化完善来持续实现的.因此我们在考虑实现高并发程序的时候,要先保证并发的正确性,然 ...
- 推荐IT经理/产品经理,常用工具和网站
一. 常用必备工具 1)文档工具 石墨文档,在线协作文档工具 https://shimo.im/ 2) 表格工具 麦客,在线问卷调查工具 http://www.mikecrm.com/ 3)脑图工具 ...
- web自动化 -- 消息提示框处理 (alert、confirm、prompt)
一.前提知识 1.警告消息框(alert) 警告消息框提供了一个"确定"按钮让用户关闭该消息框,并且该消息框是模式对话框,也就是说用户必须先关闭该消息框然后才能继续进行操作. 2. ...
- ZYNQ PS端IIC接口使用-笔记
ZYNQ7000系列FPGA的PS自带两个IIC接口,接口PIN IO可扩展为EMIO形式即将IO约束到PL端符合电平标准的IO(BANK12.BANK13.BANK34.BANK35): SDK中需 ...