贝叶斯学习方法中有用性非常高的一种为朴素贝叶斯学习期,常被称为朴素贝叶斯分类器。

在某些领域中与神经网络和决策树学习相当。尽管朴素贝叶斯分类器忽略单词间的依赖关系。即如果全部单词是条件独立的,但朴素贝叶斯分类在实际应用中有非常出色的表现。

朴素贝叶斯文本分类算法伪代码:

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

朴素贝叶斯文本分类算法流程:

通过计算训练集中每一个类别的概率与不同类别下每一个单词的概率,然后利用朴素贝叶斯公式计算新文档被分类为各个类别的概率。终于输出概率最大的类别。

C++源代码:

/*
Bayesian classifier for document classifiaction
15S103182
Ethan
2015.12.27
*/
#include <iostream>
#include <vector>
#include <iterator>
#include <map>
#include <fstream>
#include <iomanip>
#include <sstream>
using namespace std;
int stringToInteger(string a){
stringstream ss;
ss<<a;
int b;
ss>>b;
return b;
}
vector<int> openClassificationFile(const char* dataset){
fstream file;
file.open(dataset,ios::in);
if(!file)
{
cout <<"Open File Failed!" <<endl;
vector<int> a;
return a;
}
vector<int> data;
int i=1;
while(!file.eof()){
string temp;
file>>temp;
data.push_back(stringToInteger(temp));
}
file.close();
return data;
}
vector<string> openFile(const char* dataset){
fstream file;
file.open(dataset,ios::in);
if(!file)
{
cout <<"Open File Failed!" <<endl;
vector<string> a;
return a;
}
vector<string> data;
int i=1;
while(!file.eof()){
string temp;
file>>temp;
data.push_back(temp);
}
file.close();
for(int i=0;i<data.size();i++) cout<<data[i]<<"\t";
cout<<endl;
cout<<"Open file successfully!"<<endl;
return data;
}
vector<vector<string> > openFiles(const vector<char*> files){
vector<vector<string> > docs;
for(int i=0;i<files.size();i++){
vector<string> t = openFile(files[i]);
docs.push_back(t);
}
return docs;
}
void bayesian(vector<vector<string> > docs,vector<int> c,vector<string> d){
map<string,int> wordFrequency;//每一个单词出现的个数
map<int,float> cWordProbability;//类别单词频率
map<int,int> cTotalFrequency;//类别单词个数
map<int,map<string,int> > cWordlTotalFrequency;//类别下单词个数
int totalWords=0;
for(int i=0;i<docs.size();i++){
totalWords += docs[i].size();
cWordProbability[c[i]] = cWordProbability[c[i]] + docs[i].size();
map<string,int> sn;
for(int j=0;j<docs[i].size();j++){
wordFrequency[docs[i][j]] = wordFrequency[docs[i][j]] + 1;
sn[docs[i][j]] = sn[docs[i][j]] + 1;
}
map<string,int>::iterator isn;
for(isn = sn.begin();isn!=sn.end();isn++){
cWordlTotalFrequency[c[i]][isn->first] = cWordlTotalFrequency[c[i]][isn->first] + isn->second;
}
}
int tw = wordFrequency.size();
map<int,float>::iterator icWordProbability;
for(icWordProbability=cWordProbability.begin();icWordProbability!=cWordProbability.end();icWordProbability++){
cTotalFrequency[icWordProbability->first] = icWordProbability->second;
cWordProbability[icWordProbability->first] = icWordProbability->second / totalWords;
}
cout<<"Word Frequency:"<<endl;
map<string,int>::iterator iwordFrequency;
for(iwordFrequency=wordFrequency.begin();iwordFrequency!=wordFrequency.end();iwordFrequency++){
cout<<setw(8)<<iwordFrequency->first<<"\tFrequency:"<<iwordFrequency->second<<endl;
}
cout<<"Conditional Probability:"<<endl;
map<string,int> dtw;//待分类文档词频
for(int i=0;i<d.size();i++) dtw[d[i]] = dtw[d[i]] + 1;
map<string,map<int,float> > cp;//单词类别概率
map<string,int>::iterator idtw;
for(idtw=dtw.begin();idtw!=dtw.end();idtw++){
map<int,float> cf;
for(int j=0;j<cTotalFrequency.size();j++){
float p=0;
p = (float)(cWordlTotalFrequency[j][idtw->first] +1) / (cTotalFrequency[j] + wordFrequency.size());
cf[j] = p;
cout<<"P("<<idtw->first<<"|"<<j<<") \t= "<<p<<endl;
}
cp[idtw->first] = cf;
}
cout<<"Classification Probability:"<<endl;
float mp = 0;
int classification=0;
for(int i=0;i<cTotalFrequency.size();i++){
float tcp=1;
for(int j=0;j<d.size();j++){
tcp = tcp * cp[d[j]][i];
}
tcp = tcp * cWordProbability[i];
cout<<"classification:"<<i<<"\t"<<"Probability:"<<tcp<<endl;
if(mp<tcp) {
mp = tcp;
classification = i;
}
}
cout<<"The new document classification is:"<<classification<<endl;
} int main(int argc, char** argv) {
vector<vector<string> > docs;
vector<int> c = openClassificationFile("classification.txt");
vector<char *> files;
files.push_back("1.txt");files.push_back("2.txt");files.push_back("3.txt");files.push_back("4.txt");files.push_back("5.txt");
cout<<"训练文档集:"<<endl;
docs = openFiles(files);
vector<string> d;
cout<<"待分类文档:"<<endl;
d = openFile("new.txt");
bayesian(docs,c,d);
return 0;
}

效果展示:

结论:

朴素贝叶斯分类器用于处理离散型的文本数据,可以有效对文本文档进行分类。在实验过程中,最困难的地方在于数据结构的设计。因为要统计每一个文档类别的频数和每一个文档类别下单词的概率,这个地方须要用到复杂映射与统计。在编码过程中经过不断的思考,终于通过多级映射的形式储存所需的数据,终于计算出新文档的类别。通过实验,成功将新的未分类文档输入样例分类为期待的文档类型。实验结果较为惬意。

Naive Bayesian文本分类器的更多相关文章

  1. 基于Bayes和KNN的newsgroup 18828文本分类器的Python实现

    向@yangliuy大牛学习NLP,这篇博客是数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文本分类器的JAVA实现(上)的Python实现.入门为主,没有太多自己的东西. 1. ...

  2. 算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)

    算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification) 0.写在前面的话 我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比 ...

  3. 朴素贝叶斯(Naive Bayesian)

    简介 Naive Bayesian算法 也叫朴素贝叶斯算法(或者称为傻瓜式贝叶斯分类) 朴素(傻瓜):特征条件独立假设 贝叶斯:基于贝叶斯定理 这个算法确实十分朴素(傻瓜),属于监督学习,它是一个常用 ...

  4. 分类算法之朴素贝叶斯分类(Naive Bayesian classification)

    分类算法之朴素贝叶斯分类(Naive Bayesian classification) 0.写在前面的话 我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感.而每次 ...

  5. 朴素贝叶斯分类器(Naive Bayesian Classifier)

    本博客是基于对周志华教授所著的<机器学习>的"第7章 贝叶斯分类器"部分内容的学习笔记. 朴素贝叶斯分类器,顾名思义,是一种分类算法,且借助了贝叶斯定理.另外,它是一种 ...

  6. 后端程序员之路 18、朴素贝叶斯模型(Naive Bayesian Model,NBM)

    贝叶斯推断及其互联网应用(一):定理简介 - 阮一峰的网络日志http://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_one.ht ...

  7. [ML学习笔记] 朴素贝叶斯算法(Naive Bayesian)

    [ML学习笔记] 朴素贝叶斯算法(Naive Bayesian) 贝叶斯公式 \[P(A\mid B) = \frac{P(B\mid A)P(A)}{P(B)}\] 我们把P(A)称为"先 ...

  8. 一个使用fasttext训练的新闻文本分类器/模型

    fastext是什么? Facebook AI Research Lab 发布的一个用于快速进行文本分类和单词表示的库.优点是很快,可以进行分钟级训练,这意味着你可以在几分钟时间内就训练好一个分类模型 ...

  9. 基于KNN的newsgroup 18828文本分类器的Python实现

    还是同前一篇作为学习入门. 1. KNN算法描述: step1: 文本向量化表示,计算特征词的TF-IDF值 step2: 新文本到达后,根据特征词确定文本的向量 step3 : 在训练文本集中选出与 ...

随机推荐

  1. rocketmq源码分析1-benchmark学习

    benchmark 分析 组成部分 三个java类,都含有main方法,可选的传递一些参数,诸如测试线程数量,消息体积大小.三个类分别用于测试普通生产者,事务生产者,消费者.生产者 默认64个测试线程 ...

  2. bat 中的特殊符号输出问题

    系统关键字(感叹号!)冲突 由于是自动化部署,因此需要使用到循环,这里就不可避免的用到了延迟变量(setlocal enabledelayedexpansion) 有关延迟变量的知识,大家可以通过这篇 ...

  3. 使用 Rails Webpacker 安裝 Foundation 6

    動機 由於 foundation-rails 6.4.1 版本有個 Issue 目前還沒合併.加上 Rails 已經支援了 webpack 2.x.這篇文章純粹紀錄另外一種做法. 準備 開始使用之前需 ...

  4. JAVA-json数据与Java的bean类的互相转换

    Java调用webservice时用到了json格式的数据,然后就整理这个类.那里不合适的话,希望能够得到指正. public class JsonsAndBeanList { /** * json数 ...

  5. [PDOException] SQLSTATE[HY000] [2002] No such file or directory

    编译安装PHP7之后,在安装mysql之后,用pdo操作数据库的时候,出现了此错误[PDOException] SQLSTATE[HY000] [2002] No such file or direc ...

  6. [转]linux多命令的顺序执行

    当我们需要一次执行多个命令的时候,命令之间需要用连接符连接,不同的连接符有不同的效果. (1) ; 分号,没有任何逻辑关系的连接符.当多个命令用分号连接时,各命令之间的执行成功与否彼此没有任何影响,都 ...

  7. BZOJ3505 & 洛谷P3166 [Cqoi2014]数三角形 【数学、数论】

    题目 给定一个nxm的网格,请计算三点都在格点上的三角形共有多少个.下图为4x4的网格上的一个三角形. 注意三角形的三点不能共线. 输入格式 输入一行,包含两个空格分隔的正整数m和n. 输出格式 输出 ...

  8. 关于element-ui select组件change事件只要数据变化就会触发的解决办法

    使用select组件和表格组件结合起来用,但是发现在点击下一页的时候,由于select当中的数据发生了变化,所以也会触发select当中的change事件,但是我只希望在我主动改变select组件当中 ...

  9. bzoj 4009 接水果 整体二分

    Description 先给出一些盘子, 用路径x-y表示, 有权值 再有Q个询问, 表示水果, 用路径x-y表示 如果盘子是水果的子路径, 可以接住 对于每个水果, 输出可以接住它的盘子的第k小权 ...

  10. Pushlets的初始化陷阱

    Pushlets是在类名为Pushlet的servlet的init方法中进行初始化的.一般我们会在web.xml配置pushlet的时候,指定其servlet在Web应用启动时就进行初始化,即便这样, ...