朴素贝叶斯(垃圾邮件分类)

朴素贝叶斯(垃圾邮件分类)

邮箱训练集下载地址

邮箱训练集可以加我微信：a1171958281

模块导入

import re

import os

from jieba import cut

from itertools import chain

from collections import Counter

import numpy as np

from sklearn.naive_bayes import MultinomialNB

文本预处理

def get_words(filename):

    """读取文本并过滤无效字符和长度为1的词"""

    words = []

    with open(filename, 'r', encoding='utf-8') as fr:

        for line in fr:

            line = line.strip()

            # 过滤无效字符

            line = re.sub(r'[.【】0-9、——。，！~\*]', '', line)

            # 使用jieba.cut()方法对文本切词处理

            line = cut(line)

            # 过滤长度为1的词

            line = filter(lambda word: len(word) > 1, line)

            words.extend(line)

    return words

遍历邮件

all_words = []

def get_top_words(top_num):

    """遍历邮件建立词库后返回出现次数最多的词"""

    filename_list = ['邮件_files/{}.txt'.format(i) for i in range(151)]

    # 遍历邮件建立词库

    for filename in filename_list:

        all_words.append(get_words(filename))

    # itertools.chain()把all_words内的所有列表组合成一个列表

    # collections.Counter()统计词个数

    freq = Counter(chain(*all_words))

    return [i[0] for i in freq.most_common(top_num)]

top_words = get_top_words(100)

# 构建词-个数映射表

vector = []

for words in all_words:

    '''

    words:

    ['国际', 'SCI', '期刊', '材料', '结构力学', '工程', '杂志', '国际', 'SCI', '期刊', '先进', '材料科学',

    '材料', '工程', '杂志', '国际', 'SCI', '期刊', '图像处理', '模式识别', '人工智能', '工程', '杂志', '国际',

    'SCI', '期刊', '数据', '信息', '科学杂志', '国际', 'SCI', '期刊', '机器', '学习', '神经网络', '人工智能',

    '杂志', '国际', 'SCI', '期刊', '能源', '环境', '生态', '温度', '管理', '结合', '信息学', '杂志', '期刊',

    '网址', '论文', '篇幅', '控制', '以上', '英文', '字数', '以上', '文章', '撰写', '语言', '英语', '论文',

    '研究', '内容', '详实', '方法', '正确', '理论性', '实践性', '科学性', '前沿性', '投稿', '初稿', '需要',

    '排版', '录用', '提供', '模版', '排版', '写作', '要求', '正规', '期刊', '正规', '操作', '大牛', '出版社',

    '期刊', '期刊', '质量', '放心', '检索', '稳定', '邀请函', '推荐', '身边', '老师', '朋友', '打扰', '请谅解']

    '''

    word_map = list(map(lambda word: words.count(word), top_words))

    '''

    word_map:

    [0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,

    0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0,

    10, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0,

    0, 1, 0, 0, 0, 0, 0, 0, 0, 0]

    '''

    vector.append(word_map)

训练模型

vector = np.array(vector)

# 0-126.txt为垃圾邮件标记为1；127-151.txt为普通邮件标记为0

labels = np.array([1]*127 + [0]*24)

model = MultinomialNB()

model.fit(vector, labels)

测试模型

def predict(filename):

    """对未知邮件分类"""

    # 构建未知邮件的词向量

    words = get_words(filename)

    current_vector = np.array(

        tuple(map(lambda word: words.count(word), top_words)))

    # 预测结果

    result = model.predict(current_vector.reshape(1, -1))

    return '**垃圾邮件**' if result == 1 else '普通邮件'

print('151.txt分类情况:{}'.format(predict('邮件_files/151.txt')))

print('152.txt分类情况:{}'.format(predict('邮件_files/152.txt')))

print('153.txt分类情况:{}'.format(predict('邮件_files/153.txt')))

print('154.txt分类情况:{}'.format(predict('邮件_files/154.txt')))

print('155.txt分类情况:{}'.format(predict('邮件_files/155.txt')))

Python之机器学习-朴素贝叶斯(垃圾邮件分类)的更多相关文章

Python实现nb(朴素贝叶斯)
Python实现nb(朴素贝叶斯) 运行环境 Pyhton3 numpy科学计算模块计算过程 st=>start: 开始 op1=>operation: 读入数据 op2=>ope ...
NLP系列(2)_用朴素贝叶斯进行文本分类(上)
作者:龙心尘 && 寒小阳时间:2016年1月. 出处: http://blog.csdn.net/longxinchen_ml/article/details/50597149 h ...
spark 机器学习朴素贝叶斯实现(二)
已知10月份10-22日网球场地,会员打球情况通过朴素贝叶斯算法,预测23,24号是否适合打网球.结果,日期,天气温度风速结果(0否,1是)天气(0晴天,1阴天,2下雨)温度(0热,1舒适,2冷) ...
spark 机器学习朴素贝叶斯原理(一)
朴素贝叶斯算法仍然是流行的挖掘算法之一,该算法是有监督的学习算法,解决的是分类问题,如客户是否流失.是否值得投资.信用等级评定等多分类问题.该算法的优点在于简单易懂.学习效率高.在某些领域的分类问题中 ...
机器学习---朴素贝叶斯与逻辑回归的区别（Machine Learning Naive Bayes Logistic Regression Difference）
朴素贝叶斯与逻辑回归的区别: 朴素贝叶斯逻辑回归生成模型(Generative model) 判别模型(Discriminative model) 对特征x和目标y的联合分布P(x,y)建模,使用 ...
机器学习朴素贝叶斯 SVC对新闻文本进行分类
朴素贝叶斯分类器模型(Naive Bayles) Model basic introduction: 朴素贝叶斯分类器是通过数学家贝叶斯的贝叶斯理论构造的,下面先简单介绍贝叶斯的几个公式: 先验概率: ...
Python实现利用朴素贝叶斯模型（NBC）进行问句意图分类
目录朴素贝叶斯分类(NBC) 程序简介分类流程字典(dict)构造:用于jieba分词和槽值替换数据集构建代码分析另外:点击右下角魔法阵上的[显示目录],可以导航~~ 朴素贝叶斯分类(NB ...
NLP系列(3)_用朴素贝叶斯进行文本分类(下)
作者: 龙心尘 && 寒小阳时间:2016年2月. 出处: http://blog.csdn.net/longxinchen_ml/article/details/50629110 ...
机器学习入门-贝叶斯中文新闻分类任务 1. .map(做标签数字替换) 2.CountVectorizer(词频向量映射) 3.TfidfVectorizer(TFDIF向量映射) 4.MultinomialNB()贝叶斯模型构建
1.map做一个标签的数字替换 2.vec = CountVectorizer(lowercase=False, max_features=4000) # 从sklean.extract_featu ...

随机推荐

P4170 [CQOI2007]涂色
传送门区间dp,设\(f[l][r]\)表示区间\((l,r)\)的最小次数,当\(l==r\)时为\(1\),当\(s[l]==s[r]\)时为\(min(f[l][r-1],f[l+1][r]) ...
（DP）51NOD 1183 编辑距离
编辑距离,又称Levenshtein距离(也叫做Edit Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除 ...
Django models模型
Django models模型一. 所谓Django models模型,是指的对数据库的抽象模型,models在英文中的意思是模型,模板的意思,在这里的意思是通过models,将数据库的借口抽象成p ...
_bzoj1208 [HNOI2004]宠物收养所【Splay】
传送门:http://www.lydsy.com/JudgeOnline/problem.php?id=1208 以后在空间限制允许的情况下我绝对不纠结内存占用问题啦!就因为不舍得用long long ...
[USACO 2012 Jan Silver] Bale Share【DP】
传送门:http://www.usaco.org/index.php?page=viewproblem2&cpid=107 没想到太不应该了,真的不应该啊! f[i][j][k]表示前i个包, ...
模拟 hihoCoder 1177 顺子
题目传送门 /* 模拟:简单的照着规则做就可以了,把各种情况考虑到,虽然比赛写的丑了点,但能1Y还是很开心的:) */ #include <cstdio> #include <cst ...
VS2010环境下.NET4.0中Tuple<T>的一个小BUG问题
启动一个桌面程序后,发现一个窗体cfdata=null, 执行时发生错误, 但是在初始化的时候,我明明是cfdata=new Cfdata();为什么会出现这个错误呢. 我开始跟踪,发现当执行cfda ...
操作JavaScript的Alert弹框
@Testpublic void testHandleAlert(){ WebElement button =driver.findElement(By.xpath("input" ...
462 Minimum Moves to Equal Array Elements II 最少移动次数使数组元素相等 II
给定一个非空整数数组,找到使所有数组元素相等所需的最小移动数,其中每次移动可将选定的一个元素加1或减1. 您可以假设数组的长度最多为10000.例如:输入:[1,2,3]输出:2说明:只有两个动作是必 ...
Ubuntu下编译安装MySQL5.7
tar zxvf mysql-5.7.14.tar.gz cd mysql-5.7.14 第一步: cmake . -DCMAKE_INSTALL_PREFIX=/usr/local/mysql/ \ ...

Python之机器学习-朴素贝叶斯(垃圾邮件分类)

朴素贝叶斯(垃圾邮件分类)

邮箱训练集下载地址

模块导入

文本预处理

遍历邮件

训练模型

测试模型

Python之机器学习-朴素贝叶斯(垃圾邮件分类)的更多相关文章

随机推荐

热门专题