python实现随机森林、逻辑回归和朴素贝叶斯的新闻文本分类

实现本文的文本数据可以在THUCTC下载也可以自己手动爬虫生成，

本文主要参考：https://blog.csdn.net/hao5335156/article/details/82716923

nb表示朴素贝叶斯

rf表示随机森林

lg表示逻辑回归

初学者（我）通过本程序的学习可以巩固python基础，学会python文本的处理，和分类器的调用。方便接下来的机器学习的学习。

各个参数直观的含义：

# -*- coding: utf-8 -*-

"""

Created on Thu Nov 29 13:00:46 2018

@author: caoqu

"""

import matplotlib.pyplot as plt

import random

import os

import jieba

from sklearn.naive_bayes import MultinomialNB as NB

from sklearn.linear_model.logistic import LogisticRegression as LR

from sklearn.ensemble import RandomForestClassifier as RF 

# 文本处理 --> 生成训练集 测试集 词频集

def text_processor(text_path, test_size=0.2):

    folder_list = os.listdir(text_path)

    data_list=[]        # 每个元素均为一篇文章

    class_list=[]       # 对应于每篇文章的类别

    # 一个循环读取一个类别的文件夹

    for folder in folder_list:

        new_folder_path = os.path.join(text_path, folder)     # 类别列表

        # 由于THUCTC文本巨多，所以我从每个类别的文本列表中随机抽取200个文本用于训练和测试，可以自行修改

        files = random.sample(os.listdir(new_folder_path), 200)

        # 一个循环读取一篇文章

        for file in files:

            with open(os.path.join(new_folder_path, file), 'r', encoding='UTF-8') as fp:

                raw = fp.read()

            word_cut = jieba.cut(raw, cut_all=False)    #精确模式切分文章

            word_list = list(word_cut)      # 一篇文章一个 word_list

            data_list.append(word_list)

            class_list.append(folder.encode('utf-8'))

    # 划分训练集和测试集

    # data_class_list[[word_list_one[], 体育], [word_list_two[], 财经], ..., [...]]

    data_class_list = list(zip(data_list, class_list))

    random.shuffle(data_class_list)     # 打乱顺序

    index = int(len(data_class_list) * test_size) + 1   # 训测比为 8:2

    train_list = data_class_list[index:]

    test_list = data_class_list[:index]

    train_data_list, train_class_list = zip(*train_list)    # (word_list_one[],...), (体育,...)

    test_data_list, test_class_list = zip(*test_list)

    # 统计词频 all_words_dict{"key_word_one":100, "key_word_two":200, ...}

    all_words_dict = {}

    for word_list in train_data_list:

        for word in word_list:

            if all_words_dict.get(word) != None:

                all_words_dict[word] += 1

            else:

                all_words_dict[word] = 1

    all_words_tuple_list = sorted(all_words_dict.items(), key=lambda f: f[1], reverse=True)     # 按值降序排序

    all_words_list = list(list(zip(*all_words_tuple_list))[0])      # all_words_list[word_one, word_two, ...]  

    return all_words_list, train_data_list, test_data_list, train_class_list, test_class_list

# 选取特征词

def words_dict(all_words_list, deleteN, stopwords_set=set()):

    feature_words = []

    n = 1

    for t in range(deleteN, len(all_words_list), 1):

        if n > 1000:    # 维度最大1000

            break

        # 非数字 非停用词 长度 1-4 之间

        if not all_words_list[t].isdigit() and all_words_list[t] not in stopwords_set and 1 < len(all_words_list[t]) < 5:

            feature_words.append(all_words_list[t])

            n += 1

    return feature_words

# 文本特征

def text_features(train_data_list, test_data_list, feature_words):

    def text_feature_(text, feature_words):

        text_words = set(text)

        features = [1 if word in text_words else 0 for word in feature_words]

        return features

    train_feature_list = [text_feature_(text, feature_words) for text in train_data_list]

    test_feature_list = [text_feature_(text, feature_words) for text in test_data_list]

    return train_feature_list, test_feature_list

# 对停用词去重

def make_word_set(words_file):

    words_set = set()

    with open(words_file, 'r', encoding='UTF-8') as fp:

        for line in fp.readlines():

            word = line.strip()

            if len(word)>0 and word not in words_set:

                words_set.add(word)

    return words_set

# 列表求均值

def average(accuracy_list):

    sum = 0

    for i in accuracy_list:

        sum += i

    return round(sum/len(accuracy_list),3)

# 分类 同时输出准确率等

def text_classifier(train_feature_list, test_feature_list, train_class_list, test_class_list, flag):

    if flag == 'nb':

        # 朴素贝叶斯分类器 拟合 默认拉普拉斯平滑 不指定先验概率先验概率

        classifier = NB().fit(train_feature_list, train_class_list)

    if flag == 'lg':

        # 逻辑回归分类器 指定liblinear为求解最优化问题的算法 最大迭代数 多分类问题策略

        classifier = LR(solver='liblinear',max_iter=5000, multi_class='auto').fit(train_feature_list, train_class_list)

    if flag == 'rf':

        # 随机森林分类器

        classifier = RF(n_estimators=200).fit(train_feature_list, train_class_list)

    test_accuracy = classifier.score(test_feature_list, test_class_list)        # 测试准确率

    return test_accuracy

def start(flag):

    folder_path = 'D:/WorkSpace/THUCTC/THUCNews/'     # 请修改成自己的路径

    all_words_list, train_data_list, test_data_list, train_class_list, test_class_list = text_processor(folder_path, test_size=0.2)

    stopwords_set = make_word_set('D:/WorkSpace/tmp/py/stop_words_cn.txt')

    # 文本特征的提取和分类

    deleteNs = range(0,1000,20)

    test_accuracy_list = []

    # 每循环一次，去除前 20 个最高词频，直到去除 980 个最高词频为止

    for deleteN in deleteNs:

        feature_words = words_dict(all_words_list, deleteN, stopwords_set)

        train_feature_list, test_feature_list = text_features(train_data_list, test_data_list, feature_words)

        if flag == 'nb':

            test_accuracy = text_classifier(train_feature_list, test_feature_list, train_class_list, test_class_list, flag='nb')

        if flag == 'lg':

            test_accuracy = text_classifier(train_feature_list, test_feature_list, train_class_list, test_class_list, flag='lg')

        if flag == 'rf':

            test_accuracy = text_classifier(train_feature_list, test_feature_list, train_class_list, test_class_list, flag='rf')

        test_accuracy_list.append(test_accuracy)

    print(flag + '平均准确度：', average(test_accuracy_list))

    print(flag + '最大准确度：', round(max(test_accuracy_list), 3))

    return deleteNs, test_accuracy_list

if __name__ == "__main__":

    plt.figure(figsize=(13, 11))

    for i in range(5):

        # 1

        flag = 'nb'

        nb_deleteNs, nb_accuracy_list = start(flag)

        flag = 'lg'

        lg_deleteNs, lg_accuracy_list = start(flag)

        flag = 'rf'

        rf_deleteNs, rf_accuracy_list = start(flag)

        # 绘图

        plt.title('Relationship of deleteNs and test_accuracy')

        plt.xlabel('deleteNs')

        plt.ylabel('test_accuracy')

        plt.grid()

        plt.plot(nb_deleteNs, nb_accuracy_list, 'b', label='nb')

        plt.plot(lg_deleteNs, lg_accuracy_list, 'k', label='lg')

        plt.plot(rf_deleteNs, rf_accuracy_list, 'r', label='rf')

        plt.annotate('大', xy=((nb_accuracy_list.index(max(nb_accuracy_list))-1)*20, max(nb_accuracy_list)))

        plt.annotate('大', xy=((lg_accuracy_list.index(max(lg_accuracy_list))-1)*20, max(lg_accuracy_list)))

        plt.annotate('大', xy=((rf_accuracy_list.index(max(rf_accuracy_list))-1)*20, max(rf_accuracy_list)))

    plt.legend()

    plt.show()

运行结果：

其他参数请自行修改

python实现随机森林、逻辑回归和朴素贝叶斯的新闻文本分类的更多相关文章

【十大算法实现之naive bayes】朴素贝叶斯算法之文本分类算法的理解与实现
关于bayes的基础知识,请参考: 基于朴素贝叶斯分类器的文本聚类算法 (上) http://www.cnblogs.com/phinecos/archive/2008/10/21/1315948.h ...
Python机器学习（基础篇---监督学习（朴素贝叶斯））
朴素贝叶斯朴素贝叶斯分类器的构造基础是贝叶斯理论.采用概率模型来表述,定义x=<x1,x2,...,xn>为某一n维特征向量,y∈{c1,c2,...ck}为该特征向量x所有k种可能的类 ...
手写朴素贝叶斯（naive_bayes）分类算法
朴素贝叶斯假设各属性间相互独立,直接从已有样本中计算各种概率,以贝叶斯方程推导出预测样本的分类. 为了处理预测时样本的(类别,属性值)对未在训练样本出现,从而导致概率为0的情况,使用拉普拉斯修正(假设 ...
tf-idf、朴素贝叶斯的短文本分类简述
朴素贝叶斯分类器(Naïve Bayes classifier)是一种相当简单常见但是又相当有效的分类算法,在监督学习领域有着很重要的应用.朴素贝叶斯是建立在“全概率公式”的基础下的,由已知的尽可能多 ...
机器学习实战之朴素贝叶斯进行文档分类（Python 代码版）
贝叶斯是搞概率论的.学术圈上有个贝叶斯学派.看起来吊吊的.关于贝叶斯是个啥网上有很多资料.想必读者基本都明了.我这里只简单概括下:贝叶斯分类其实就是基于先验概率的基础上的一种分类法,核心公式就是条件概 ...
<Machine Learning in Action >之二朴素贝叶斯 C#实现文章分类
def trainNB0(trainMatrix,trainCategory): numTrainDocs = len(trainMatrix) numWords = len(trainMatrix[ ...
机器学习：朴素贝叶斯--python
今天介绍机器学习中一种基于概率的常见的分类方法,朴素贝叶斯,之前介绍的KNN, decision tree 等方法是一种 hard decision,因为这些分类器的输出只有0 或者 1,朴素贝叶斯方 ...
Stanford大学机器学习公开课（五）：生成学习算法、高斯判别、朴素贝叶斯
(一)生成学习算法在线性回归和Logistic回归这种类型的学习算法中我们探讨的模型都是p(y|x;θ),即给定x的情况探讨y的条件概率分布.如二分类问题,不管是感知器算法还是逻辑回归算法,都是在解 ...
什么是机器学习的分类算法？【K-近邻算法(KNN)、交叉验证、朴素贝叶斯算法、决策树、随机森林】
1.K-近邻算法(KNN) 1.1 定义 (KNN,K-NearestNeighbor) 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类 ...

随机推荐

使用Git将本地文件提交到远程仓库
一操作准备条件: git远程仓库已经建好了,本地文件已经存在了,现在要将本地代码推到git远程仓库保存. 解决办法如下: 1.(先进入项目文件夹)通过命令 git init 把这个目录变成git可以 ...
IE8图片上传预览
$("#smallImg").attr('style', "filter:progid:DXImageTransform.Microsoft.AlphaImageLoad ...
Target JRE version (1.7.0_79) does not match project JDK version (java version "1.8.0_171"), will use sources from JDK: 1.7
IDEA不会自动匹配系统的JDK环境.如果在IDEA里面没有配置JDK,那么运行程序时就会报错之前碰到这个问题卡了一下顺手记录一下出现此错误说明IDE中配置的jdk版本和你使用的jdk版本不一致 ...
vue2.0插件--loading
loading效果很常见,常见到我们任何一个项目中,都可以见到他的身影.今天就以loading作为切入口,唠叨一下vuejs的插件的写法. 看vuejs官方文档关于插件的说明,关于使用插件和写插件,V ...
uva-507
题意:连续序列和最大,直接枚举..... 代码跑了2.4s.QAQ #include <string> #include<iostream> #include<map&g ...
HTTP客户端识别与Cookie机制
HTTP识别用户的几种技巧承载用户身份信息的HTTP首部客户端IP地址跟踪,通过用户的IP地址对其进行识别用户登录,用认证方式识别用户胖URL,一种在URL中潜入识别信息的技术 cookie, ...
后台封装的easyui框架，处理texbox的时候报错：未结束的字符串常量。
原因:特殊字符导致json字符串转换成json对象出错解决:找到初始值的地方进行过滤代码如下: theString = theString.Replace(">", &q ...
python3 字典update与deepcopy
问题概述: 在码代码中,需要保存一个字典,用的update,后来发现update的值会随着原字典值得变化而变化. 而后使用deepcopy来保存字典. update a = {1:{2:3}}b= { ...
vue-cli 报Module build failed: Error: No parser and no file path given, couldn't infer a parser.错的解决方法
出错提示如下: ERROR Failed to compile with errors :: error in ./src/App.vue Module build failed: Error: No ...
logback kafkaAppender输出日志到kafka
官网地址https://github.com/danielwegener/logback-kafka-appender 本文以spring boot项目为基础,更多的信息,请参考官网 https:// ...

python实现随机森林、逻辑回归和朴素贝叶斯的新闻文本分类

python实现随机森林、逻辑回归和朴素贝叶斯的新闻文本分类的更多相关文章

随机推荐

热门专题