Naive Bayesian文本分类器

贝叶斯学习方法中有用性非常高的一种为朴素贝叶斯学习期，常被称为朴素贝叶斯分类器。

在某些领域中与神经网络和决策树学习相当。尽管朴素贝叶斯分类器忽略单词间的依赖关系。即如果全部单词是条件独立的，但朴素贝叶斯分类在实际应用中有非常出色的表现。

朴素贝叶斯文本分类算法伪代码：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

朴素贝叶斯文本分类算法流程：

通过计算训练集中每一个类别的概率与不同类别下每一个单词的概率，然后利用朴素贝叶斯公式计算新文档被分类为各个类别的概率。终于输出概率最大的类别。

C++源代码：

/*

	Bayesian classifier for document classifiaction

	15S103182

	Ethan

	2015.12.27

*/

#include <iostream>

#include <vector>

#include <iterator>

#include <map>

#include <fstream>

#include <iomanip>

#include <sstream>

using namespace std;

int stringToInteger(string a){

	stringstream ss;

	ss<<a;

	int b;

	ss>>b;

	return b;

}

vector<int> openClassificationFile(const char* dataset){

	fstream file;

	file.open(dataset,ios::in);

	if(!file)

    {

        cout <<"Open File Failed!" <<endl;

        vector<int> a;

        return a;

    }

	vector<int> data;

	int i=1;

	while(!file.eof()){

		string temp;

		file>>temp;

		data.push_back(stringToInteger(temp));

	}

	file.close();

	return data;

}

vector<string> openFile(const char* dataset){

	fstream file;

	file.open(dataset,ios::in);

	if(!file)

    {

        cout <<"Open File Failed!" <<endl;

        vector<string> a;

        return a;

    }

	vector<string> data;

	int i=1;

	while(!file.eof()){

		string temp;

		file>>temp;

		data.push_back(temp);

	}

	file.close();

	for(int i=0;i<data.size();i++) cout<<data[i]<<"\t";

	cout<<endl;

	cout<<"Open file successfully!"<<endl;

	return data;

}

vector<vector<string> > openFiles(const vector<char*> files){

	vector<vector<string> > docs;

	for(int i=0;i<files.size();i++){

		vector<string> t = openFile(files[i]);

		docs.push_back(t);

	}

	return docs;

}

void bayesian(vector<vector<string> > docs,vector<int> c,vector<string> d){

	map<string,int> wordFrequency;//每一个单词出现的个数

	map<int,float> cWordProbability;//类别单词频率

	map<int,int> cTotalFrequency;//类别单词个数

	map<int,map<string,int> > cWordlTotalFrequency;//类别下单词个数

	int totalWords=0;

	for(int i=0;i<docs.size();i++){

		totalWords += docs[i].size();

		cWordProbability[c[i]] = cWordProbability[c[i]] + docs[i].size();

		map<string,int> sn;

		for(int j=0;j<docs[i].size();j++){

			wordFrequency[docs[i][j]] = wordFrequency[docs[i][j]] + 1;

			sn[docs[i][j]] = sn[docs[i][j]] + 1;

		}

		map<string,int>::iterator isn;

		for(isn = sn.begin();isn!=sn.end();isn++){

			cWordlTotalFrequency[c[i]][isn->first] = cWordlTotalFrequency[c[i]][isn->first] + isn->second;

		}

	}

	int tw = wordFrequency.size();

	map<int,float>::iterator icWordProbability;

	for(icWordProbability=cWordProbability.begin();icWordProbability!=cWordProbability.end();icWordProbability++){

		cTotalFrequency[icWordProbability->first] = icWordProbability->second;

		cWordProbability[icWordProbability->first] = icWordProbability->second / totalWords;

	}

	cout<<"Word Frequency:"<<endl;

	map<string,int>::iterator iwordFrequency;

	for(iwordFrequency=wordFrequency.begin();iwordFrequency!=wordFrequency.end();iwordFrequency++){

		cout<<setw(8)<<iwordFrequency->first<<"\tFrequency:"<<iwordFrequency->second<<endl;

	}

	cout<<"Conditional Probability:"<<endl;

	map<string,int> dtw;//待分类文档词频

	for(int i=0;i<d.size();i++) dtw[d[i]] = dtw[d[i]] + 1;

	map<string,map<int,float> > cp;//单词类别概率

	map<string,int>::iterator idtw;

	for(idtw=dtw.begin();idtw!=dtw.end();idtw++){

		map<int,float> cf;

		for(int j=0;j<cTotalFrequency.size();j++){

			float p=0;

			p = (float)(cWordlTotalFrequency[j][idtw->first] +1) / (cTotalFrequency[j] + wordFrequency.size());

			cf[j] = p;

			cout<<"P("<<idtw->first<<"|"<<j<<") \t= "<<p<<endl;

		}

		cp[idtw->first] = cf;

	}

	cout<<"Classification Probability:"<<endl;

	float mp = 0;

	int classification=0;

	for(int i=0;i<cTotalFrequency.size();i++){

		float tcp=1;

		for(int j=0;j<d.size();j++){

			tcp = tcp * cp[d[j]][i];

		}

		tcp = tcp * cWordProbability[i];

		cout<<"classification:"<<i<<"\t"<<"Probability:"<<tcp<<endl;

		if(mp<tcp) {

			mp = tcp;

			classification = i;

		}

	}

	cout<<"The new document classification is："<<classification<<endl;

}

int main(int argc, char** argv) {

	vector<vector<string> > docs;

	vector<int> c = openClassificationFile("classification.txt");

	vector<char *> files;

	files.push_back("1.txt");files.push_back("2.txt");files.push_back("3.txt");files.push_back("4.txt");files.push_back("5.txt");

	cout<<"训练文档集："<<endl;

	docs = openFiles(files);

	vector<string> d;

	cout<<"待分类文档："<<endl;

	d = openFile("new.txt");

	bayesian(docs,c,d);

	return 0;

}

效果展示：

结论：

朴素贝叶斯分类器用于处理离散型的文本数据，可以有效对文本文档进行分类。在实验过程中，最困难的地方在于数据结构的设计。因为要统计每一个文档类别的频数和每一个文档类别下单词的概率，这个地方须要用到复杂映射与统计。在编码过程中经过不断的思考，终于通过多级映射的形式储存所需的数据，终于计算出新文档的类别。通过实验，成功将新的未分类文档输入样例分类为期待的文档类型。实验结果较为惬意。

Naive Bayesian文本分类器的更多相关文章

基于Bayes和KNN的newsgroup 18828文本分类器的Python实现
向@yangliuy大牛学习NLP,这篇博客是数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文本分类器的JAVA实现(上)的Python实现.入门为主,没有太多自己的东西. 1. ...
算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)
算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification) 0.写在前面的话我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比 ...
朴素贝叶斯(Naive Bayesian)
简介 Naive Bayesian算法也叫朴素贝叶斯算法(或者称为傻瓜式贝叶斯分类) 朴素(傻瓜):特征条件独立假设贝叶斯:基于贝叶斯定理这个算法确实十分朴素(傻瓜),属于监督学习,它是一个常用 ...
分类算法之朴素贝叶斯分类(Naive Bayesian classification)
分类算法之朴素贝叶斯分类(Naive Bayesian classification) 0.写在前面的话我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感.而每次 ...
朴素贝叶斯分类器（Naive Bayesian Classifier）
本博客是基于对周志华教授所著的<机器学习>的"第7章贝叶斯分类器"部分内容的学习笔记. 朴素贝叶斯分类器,顾名思义,是一种分类算法,且借助了贝叶斯定理.另外,它是一种 ...
后端程序员之路 18、朴素贝叶斯模型（Naive Bayesian Model，NBM）
贝叶斯推断及其互联网应用(一):定理简介 - 阮一峰的网络日志http://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_one.ht ...
[ML学习笔记] 朴素贝叶斯算法（Naive Bayesian)
[ML学习笔记] 朴素贝叶斯算法(Naive Bayesian) 贝叶斯公式 \[P(A\mid B) = \frac{P(B\mid A)P(A)}{P(B)}\] 我们把P(A)称为"先 ...
一个使用fasttext训练的新闻文本分类器/模型
fastext是什么? Facebook AI Research Lab 发布的一个用于快速进行文本分类和单词表示的库.优点是很快,可以进行分钟级训练,这意味着你可以在几分钟时间内就训练好一个分类模型 ...
基于KNN的newsgroup 18828文本分类器的Python实现
还是同前一篇作为学习入门. 1. KNN算法描述: step1: 文本向量化表示,计算特征词的TF-IDF值 step2: 新文本到达后,根据特征词确定文本的向量 step3 : 在训练文本集中选出与 ...

随机推荐

luogu4173 残缺的字符串
there #include <algorithm> #include <iostream> #include <cstring> #include <cst ...
jquery获得iframe内容的高度
html: <iframe name="rightgp" id="right_frame_h" src="/Poster/rightgp&quo ...
[python学习篇][书籍学习][python standrad library][内建函数]之[all,any,basestring,isinstance,bin,bool,@classmethod,@staticmethod,cmp,enumerate
Python 解释器内置了一些函数,它们总是可用的.这里将它们按字母表顺序列出. Built-in Functions abs() divmod() input() open() st ...
CodeM美团点评编程大赛初赛A轮
因为语文太差弃赛,第一个追及问题看不懂我就弃赛了.打进复赛确实挺难的,补一下题,锻炼下就行了. 身体训练时间限制:1秒空间限制:32768K 美团外卖的配送员用变速跑的方式进行身体训练.他们训练的 ...
IDA动态调试技术及Dump内存
IDA动态调试技术及Dump内存来源 https://blog.csdn.net/u010019468/article/details/78491815 最近研究SO文件调试和dump内存时,为了完 ...
[luoguP1251] 餐巾计划问题（费用流）
传送门模型网络优化问题,用最小费用最大流解决. 实现把每天分为二分图两个集合中的顶点Xi,Yi,建立附加源S汇T. 1.从S向每个Xi连一条容量为ri,费用为0的有向边. 2.从每个Yi向T连一 ...
学习 JSP：第二步创建一个JSP Web Project
接上文学习 JSP:第一步Eclipse+Tomcat+jre(配置环境) [创建新工程](Dynamic Web Project) 1.选择 "File-->New-->Dy ...
【BJOI2014/bzoj4530】大融合
题意有 $n$ 个点,初始没有连边,要求支持两个动态操作: 1. 加一条边(保证之前两点不连通) 2. 查询过一条边的简单路径数量(就是两边连通块的大小的乘积) $n,Q\le 100000$ 题解 ...
python语言基础问题汇总
问题汇总问题分类怎么在一个python脚本里调用另一个python脚本把两个脚本filea.py 和 fileb.py 放在同一个目录下,然后在filea.py的开头写: import file ...
【CF659E】New Reform（图的联通，环）
分析转载自http://blog.csdn.net/yukizzz/article/details/51029628 题意: 给定n个点和m条双向边,将双向边改为单向边,问无法到达的顶点最少有多少个? ...

Naive Bayesian文本分类器

Naive Bayesian文本分类器的更多相关文章

随机推荐

热门专题