Python实现nb(朴素贝叶斯)

运行环境

Pyhton3
numpy科学计算模块

计算过程

st=>start: 开始

op1=>operation: 读入数据

op2=>operation: 格式化数据

op3=>operation: 计算测试文本对预测情感的相关度

op4=>operation: 计算推断出情感的概率

e=>end

st->op1->op2->op3->op4->e

输入样例

/* Dataset.txt */

文本编号	词列表（以空格分隔）	公众"感动"的概率

训练文本1	消防员 冲进 火场 救出 男童	1

训练文本2	消防员 多次 冲进 火场 救人 不幸 身亡	0.5

训练文本3	6旬 老人 跳楼 自杀 身亡	0.1

训练文本4	疑犯 枪杀 出租车 司机	0

训练文本5	医师 误 把 肾脏 当 肝脏 致人 身亡	0

测试文本1	癌症 老人 成功 手术	?

测试文本2	男子 枪杀 老人 后 自杀	?

测试文本3	消防员 冲进 火场 将 男童 救出	?

测试文本4	出租车 司机 免费 搭载 老人	?

测试文本5	医师 误 把 患者 肝脏 捅破 致人 身亡	?

代码实现

# -*- coding: utf-8 -*-

__author__ = 'Wsine'

from numpy import *

import operator

import time

SIZE_OF_DATA = 5

SIZE_OF_TEST = 5

def read_input(filename):

	with open(filename) as fr:

		corpus = []

		for text in fr.readlines()[1:]:

			for word in text.strip().split('\t')[1].split():

				corpus.append(word)

		allwords = set(corpus)

	matN = len(allwords)

	returnMat = zeros((SIZE_OF_DATA + SIZE_OF_TEST, matN))

	shares = []

	index = 0

	with open(filename) as fr:

		for line in fr.readlines()[1:]:

			setFromLine = set(line.strip().split('\t')[1].split())

			oneLine = []

			for s in allwords:

				if s in setFromLine:

					oneLine.append(1)

				else:

					oneLine.append(0)

			returnMat[index, :] = oneLine

			if index < SIZE_OF_DATA:

				shares.append(float(line.strip().split('\t')[-1].strip()))

			index += 1

	return returnMat[:SIZE_OF_DATA,:], returnMat[SIZE_OF_DATA:,:], shares

def norm(inputMat):

	outputMat = inputMat.copy()

	m, n = shape(inputMat)

	for i in range(m):

		lineSum = sum(inputMat[i, :])

		for j in range(n):

			outputMat[i, j] = inputMat[i, j] / lineSum

	return outputMat

def cosineFunction(a, b):

	l = len(a)

	up = 0

	for i in range(l):

		up += a[i] * b[i]

	down1 = linalg.norm(a)

	down2 = linalg.norm(b)

	return (up / (down1 * down2))

def classify(trainDataSet, testDataSet, dataShares):

	trainDataSet = trainDataSet.transpose()

	emotionMat = dot(trainDataSet, dataShares) # 第i个词和情感的相关度

	count = sum(trainDataSet)

	for i, word in enumerate(emotionMat):

		emotionMat[i] = word * sum(trainDataSet[i]) / count

		# 由词推断出情感的概率 =

		#					当前文本已知情感出现词的概率

		#				  * 当前训练文本中的情感概率值

		#				  / 所有文本中出现词的概率

	predictShares = dot(testDataSet, emotionMat)

	return norm(mat(predictShares))

def main():

	trainMat, testMat, shares = read_input('Dataset.txt')

	normTrainMat = norm(trainMat)

	normTestMat = norm(testMat)

	predictShares = classify(normTrainMat, normTestMat, shares)

	print(predictShares)

if __name__ == '__main__':

	main()

输出样例

[[ 0.01457495  0.02331992  0.87251383  0.01165996  0.07793135]]

Python实现nb(朴素贝叶斯)的更多相关文章

吴裕雄--天生自然python机器学习：朴素贝叶斯算法
分类器有时会产生错误结果,这时可以要求分类器给出一个最优的类别猜测结果,同时给出这个猜测的概率估计值. 概率论是许多机器学习算法的基础在计算特征值取某个值的概率时涉及了一些概率知识,在那里我们先 ...
Python机器学习算法 — 朴素贝叶斯算法（Naive Bayes）
朴素贝叶斯算法 -- 简介朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法.最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Baye ...
Python之机器学习-朴素贝叶斯(垃圾邮件分类)
目录朴素贝叶斯(垃圾邮件分类) 邮箱训练集下载地址模块导入文本预处理遍历邮件训练模型测试模型朴素贝叶斯(垃圾邮件分类) 邮箱训练集下载地址邮箱训练集可以加我微信:nickchen121 ...
Python实现利用朴素贝叶斯模型（NBC）进行问句意图分类
目录朴素贝叶斯分类(NBC) 程序简介分类流程字典(dict)构造:用于jieba分词和槽值替换数据集构建代码分析另外:点击右下角魔法阵上的[显示目录],可以导航~~ 朴素贝叶斯分类(NB ...
统计学习1：朴素贝叶斯模型(Numpy实现)
模型生成模型介绍我们定义样本空间为\(\mathcal{X} \subseteq \mathbb{R}^n\),输出空间为\(\mathcal{Y} = \{c_1, c_2, ..., c_K\ ...
python实现随机森林、逻辑回归和朴素贝叶斯的新闻文本分类
实现本文的文本数据可以在THUCTC下载也可以自己手动爬虫生成, 本文主要参考:https://blog.csdn.net/hao5335156/article/details/82716923 nb ...
朴素贝叶斯算法--python实现
朴素贝叶斯算法要理解一下基础: [朴素:特征条件独立贝叶斯:基于贝叶斯定理] 1朴素贝叶斯的概念[联合概率分布.先验概率.条件概率**.全概率公式][条件独立性假设.] 极大似然估计 ...
朴素贝叶斯算法原理及Spark MLlib实例(Scala/Java/Python)
朴素贝叶斯算法介绍: 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法. 朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,在没有其它可用信息下,我 ...
3.朴素贝叶斯和KNN算法的推导和python实现
前面一个博客我们用Scikit-Learn实现了中文文本分类的全过程,这篇博客,着重分析项目最核心的部分分类算法:朴素贝叶斯算法以及KNN算法的基本原理和简单python实现. 3.1 贝叶斯公式的推 ...

随机推荐

Freebsd下压缩解压文件详解
压缩篇: 把/usr/webgames目录下的文件打包.命名为bak.tar.gz 放到/usr/db-bak目录里下面命令可以在任意目录执行.无视当前目录和将要存放文件的目录.tar -zcvf ...
SQL笔记 [长期更新] (-2013.7)
--IF EXISTS(SELECT * FROM dbo.SysObjects WHERE ID = object_id(N'[TABLEA]') ) DROP TABLE tableA--CREA ...
Android knock code analysis
My colleague she forgot the knock code and ask me for help. I know her phone is LG G3 D855 with Andr ...
搭建高性能计算环境（十）、应用软件的安装之Wien2k
1,首先安装fftw .tar.gz cd fftw- ./configure --prefix=/opt/fftw- --enable-shared --enable-float --enable- ...
http://www.shanghaihaocong.com-WORDPRESS开发的企业主题站
wordpress是世界上使用最多的php开源博客系统,功能强大,而且拥有众多的插件,可扩展性强. 最近,我也用它做了一个企业网站,欢迎浏览:http://www.shanghaihaocong.co ...
java高级工程师必备知识
成为Java高级工程师需要掌握哪些核心点? 每逢长假都会有很多程序员跳槽,十一.过年是跳槽黄金时刻,尤其是过年.过年的时候年终奖到手,没有了多少牵挂,年终同学同事聚会比较多,沟通的就多,各种工作机 ...
MongoDB(1):常用操作命令大全
MongoDB常用操作命令大全(转) http://www.jb51.net/article/48217.htm 成功启动MongoDB后,再打开一个命令行窗口输入mongo,就可以进行数据库的一些操 ...
一个特别不错的jQuery快捷键插件:js-hotkeys
这其实不是什么新技术,这个插件在很早前就已经发布了,之前有项目用到,所以分享出来添加方式的例子 jQuery.hotkeys.add('esc',function (){ //执行函数 }); jQu ...
瀑布流ListView
前言终于忙完了一段时间,现在前段时间写的一个瀑布流ListView到想法分享下,这个东西是扩展自Listview,当列表内容拉到最后后触发刷新操作,以便抓取更多到数据. 先贴下整个代码,先有个整体到 ...
tomcat 配置文件下载目录
tomcat可提供文件的直接下载.有两种方式. 第1种放到ROOT 目录下然后在网址中访问: http://ip:8080/download.zip 便可下载第2种希望使用自己的文件路径. 在 ...

Python实现nb(朴素贝叶斯)

Python实现nb(朴素贝叶斯)

运行环境

计算过程

输入样例

代码实现

输出样例

Python实现nb(朴素贝叶斯)的更多相关文章

随机推荐

热门专题