机器学习入门-贝叶斯中文新闻分类任务 1. .map(做标签数字替换) 2.CountVectorizer(词频向量映射) 3.TfidfVectorizer(TFDIF向量映射) 4.MultinomialNB()贝叶斯模型构建

1.map做一个标签的数字替换

2.vec = CountVectorizer(lowercase=False, max_features=4000) # 从sklean.extract_feature.text 导入，根据词频做一个数字的映射，max_feature表示的是最大的特征数

需要先使用vec.fit ，再使用vec.transform 才有效

3. vec = TfidfVectorizer(lowercase=False, max_features=4000) # 从sklean.extract_feature.text 导入，根据TF-dif做一个数字的映射，max_feature表示的是最大的特征数

4.MultinomialNB() 进行贝叶斯模型的构建，这里使用的是一个向量相似度的计算，采用的是余弦定理，from sklean,naive_bayes

对于需要构成语料库的数据，我们需要去停用词

停用词包括

1. 语料中大量出现的如 1.！， 2.", 3.#, 4.$, 5.%

2. 没啥大用 1.一下 2.一些 3.一项 4.一则

关键词提取

TF-IDF

比如有3个词：中国,蜜蜂,养殖

TF（词频）：表示的是蜜蜂在这个文章里出现的次数，即词频/ 这个文章词的个数

IDF(拟文档评率)：表示的是log（文章总数/出现这个词文章的个数+1）比如一共有10000个文章，出现这个词的文章为100，那么idf约等于3

TF-IDF = TF * IDF

相似度计算：

比如句子A: 我喜欢看电视，不喜欢看电影

句子B: 我不喜欢看电视，也不喜欢看电影

对两个句子进行分词，语料库：我，喜欢，看，电视，电影，不，也

统计词频：

句子A : 我1，喜欢2，看2，电视1，不1，电影1，也0

句子B: 我1，喜欢2，看2，电视1，不2，电影1，也1

转换为向量的形式

A = [1, 2, 2, 1, 1, 1, 0]

B = [1, 2, 2, 1, 2, 1, 1]

使用余弦相似度来进行相似度的匹配，做为p(d|h)

1.载入新闻数据

2.使用结巴分词器进行分词

3.将分词后的结果去除停用词

4. 将去除停用词的数据增加一列标签

5.进行数据的拆分，分成训练数据和测试数据

6.对训练数据和测试数据进行文本表示，使用CountVectorizer()，先fit训练数据的变量，然后在分别transform训练数据和测试数据，进行词频向量化操作

7.使用贝叶斯进行训练和预测

import pandas as pd

import numpy as np

import jieba

# 1.导入数据语料的新闻数据

df_data = pd.read_table('data/val.txt', names=['category', 'theme', 'URL', 'content'], encoding='utf-8')

# 2.对语料库进行分词操作

df_contents = df_data.content.values.tolist()

# list of list 结构

Jie_content = []

for df_content in df_contents:

    split_content = jieba.lcut(df_content)

    if len(split_content) > 1 and split_content != '\t\n':

        Jie_content.append(split_content)

# 3. 导入停止词的语料库, sep='\t'表示分隔符， quoting控制引号的常量， names=列名， index_col=False，不用第一列做为行的列名， encoding

stopwords = pd.read_csv('stopwords.txt', sep='\t', quoting=3, names=['stopwords'], index_col=False, encoding='utf-8')

print(stopwords.head())

# 对文本进行停止词的去除

def drop_stops(Jie_content, stopwords):

    clean_content = []

    all_words = []

    for j_content in Jie_content:

        line_clean = []

        for line in j_content:

            if line in stopwords:

                continue

            line_clean.append(line)

            all_words.append(line)

        clean_content.append(line_clean)

    return clean_content, all_words

# 将DateFrame的stopwords数据转换为list形式

stopwords = stopwords.stopwords.values.tolist()

clean_content, all_words = drop_stops(Jie_content, stopwords)

print(clean_content[0])

# 4. 构造训练数据，变量是content，标签是category

df_content = pd.DataFrame({'content':clean_content, 'label':df_data['category']})

# 使用map将标签转换为数字形式

print(df_content.label.unique())

label_map = {'汽车':1, '财经':2, '科技':3, '健康':4, '体育':5, '教育':6, '文化':7, '军事':8, '娱乐':9, '时尚':10}

df_content['label'] = df_content['label'].map(label_map)

# 5.使用train_test_split 分出训练集和测试集

from sklearn.cross_validation import train_test_split

train_x, test_x, train_y, test_y = train_test_split(df_content['content'], df_content['label'], random_state=1)

# 将样本特征转换为词频向量的形式

from sklearn.feature_extraction.text import CountVectorizer

# 6. 为了满足CountVectorizer的形式，我们需要对转换前的样本做转换

train_x_str = []

for line in train_x:

    str_line = ' '.join(line)

    train_x_str.append(str_line)

test_x_str = []

for line in test_x:

    str_line = ' '.join(line)

    test_x_str.append(str_line)

# 将文本数据根据词频转换为向量形式

vec = CountVectorizer(lowercase=False, max_features=4000)

vec.fit(train_x_str)

# 7步 使用贝叶斯模型进行训练和测试

from sklearn.naive_bayes import MultinomialNB

print('', np.shape(vec.transform(train_x_str)))

classifier = MultinomialNB()

classifier.fit(vec.transform(train_x_str), train_y)

print(classifier.score(vec.transform(test_x_str), test_y))

# 8. 使用TF-IDF构建向量矩阵

from sklearn.feature_extraction.text import TfidfVectorizer

vec = TfidfVectorizer(lowercase=False, max_features=4000)

vec.fit(train_x_str)

classifier.fit(vec.transform(train_x_str), train_y)

print(classifier.score(vec.transform(test_x_str), test_y))

vec = TfidfVectorizer(lowercase=False, max_features=4000, ngram_range=(1, 3))

vec.fit(train_x_str)

classifier.fit(vec.transform(train_x_str), train_y)

print(classifier.score(vec.transform(test_x_str), test_y))

机器学习入门-贝叶斯中文新闻分类任务 1. .map(做标签数字替换) 2.CountVectorizer(词频向量映射) 3.TfidfVectorizer(TFDIF向量映射) 4.MultinomialNB()贝叶斯模型构建的更多相关文章

朴素贝叶斯算法——实现新闻分类（Sklearn实现）
1.朴素贝叶斯实现新闻分类的步骤 (1)提供文本文件,即数据集下载 (2)准备数据将数据集划分为训练集和测试集:使用jieba模块进行分词,词频统计,停用词过滤,文本特征提取,将文本数据向量化停用 ...
Python之机器学习-朴素贝叶斯(垃圾邮件分类)
目录朴素贝叶斯(垃圾邮件分类) 邮箱训练集下载地址模块导入文本预处理遍历邮件训练模型测试模型朴素贝叶斯(垃圾邮件分类) 邮箱训练集下载地址邮箱训练集可以加我微信:nickchen121 ...
机器学习入门-贝叶斯构造LDA主题模型，构造word2vec 1.gensim.corpora.Dictionary(构造映射字典) 2.dictionary.doc2vec(做映射) 3.gensim.model.ldamodel.LdaModel(构建主题模型)4lda.print_topics(打印主题).
1.dictionary = gensim.corpora.Dictionary(clean_content) 对输入的列表做一个数字映射字典, 2. corpus = [dictionary,do ...
NLP系列(2)_用朴素贝叶斯进行文本分类(上)
作者:龙心尘 && 寒小阳时间:2016年1月. 出处: http://blog.csdn.net/longxinchen_ml/article/details/50597149 h ...
NLP系列(3)_用朴素贝叶斯进行文本分类(下)
作者: 龙心尘 && 寒小阳时间:2016年2月. 出处: http://blog.csdn.net/longxinchen_ml/article/details/50629110 ...
贝叶斯--旧金山犯罪分类预测和电影评价好坏 demo
来源引用:https://blog.csdn.net/han_xiaoyang/article/details/50629608 1.引言贝叶斯是经典的机器学习算法,朴素贝叶斯经常运用于机器学习的案 ...
TensorFlow.NET机器学习入门【4】采用神经网络处理分类问题
上一篇文章我们介绍了通过神经网络来处理一个非线性回归的问题,这次我们将采用神经网络来处理一个多元分类的问题. 这次我们解决这样一个问题:输入一个人的身高和体重的数据,程序判断出这个人的身材状况,一共三 ...
基于Text-CNN模型的中文文本分类实战流川枫发表于AI星球订阅
Text-CNN 1.文本分类转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结. 本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于T ...
基于Text-CNN模型的中文文本分类实战
Text-CNN 1.文本分类转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结. 本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于T ...

随机推荐

Tomcat：Several ports are already in use问题
Several ports (8005, 8080, 8009) required by Tomcat v6.0 Server at localhost are already in use. The ...
iview admin 发布到IIS
公司项目打算做前后端分离,选型最后选了vue+webapi的模式.于是在网上找到了iview及iview admin 这个后台管理模板,里面东西很完善.有这么好的东西,而且MIT协议,项目本身也比较简 ...
按的第一个greasemonkey插件：评论时可以粘贴啦~~
原来的样子:如果按ctrl+V会跳出错误
windows python3 安装gittle
1 从github clone gittle项目, git clone https://github.com/FriendCode/gittle.git 2 进行到下载的项目,执行安装 python ...
MYSQL的空间查询(转帖)
SELECT x(location),y(location) FROM frddata.points; 本文将向各位介绍如何使用MySql5.x中的空间数据库,并展示一下它高效的性能(前提是正确使用) ...
CF 914F Substrings in a String——bitset处理匹配
题目:http://codeforces.com/contest/914/problem/F 可以对原字符串的每种字母开一个 bitset .第 i 位的 1 表示这种字母在第 i 位出现了. 考虑能 ...
Spring Cloud 入门之 Config 篇（六）
原文地址:Spring Cloud 入门之 Config 篇(六) 博客地址:http://www.extlight.com 一.前言随着业务的扩展,为了方便开发和维护项目,我们通常会将大项目拆分 ...
ComboBox智能搜索功能
cmbList.AutoCompleteSource = AutoCompleteSource.ListItems; cmbList.AutoCompleteMode = AutoCompleteMo ...
Windows 7 With Sp1 简体中文旗舰版
Windows 7 With Sp1 简体中文旗舰版(MSDN官方原版) 安装Windows 7对于硬件配置的基本要求: •1 GHz 32 位或 64 位处理器 •1 GB 内存(基于32 位)或 ...
oracle 恢复备份
select * from dbconninfo update dbconninfo set url = 'jdbc:oracle:thin:@(description=(address_list=( ...

机器学习入门-贝叶斯中文新闻分类任务 1. .map(做标签数字替换) 2.CountVectorizer(词频向量映射) 3.TfidfVectorizer(TFDIF向量映射) 4.MultinomialNB()贝叶斯模型构建

机器学习入门-贝叶斯中文新闻分类任务 1. .map(做标签数字替换) 2.CountVectorizer(词频向量映射) 3.TfidfVectorizer(TFDIF向量映射) 4.MultinomialNB()贝叶斯模型构建的更多相关文章

随机推荐

热门专题