机器学习入门-贝叶斯中文新闻分类任务 1. .map(做标签数字替换) 2.CountVectorizer(词频向量映射) 3.TfidfVectorizer(TFDIF向量映射) 4.MultinomialNB()贝叶斯模型构建

1.map做一个标签的数字替换

2.vec = CountVectorizer(lowercase=False, max_features=4000) # 从sklean.extract_feature.text 导入，根据词频做一个数字的映射，max_feature表示的是最大的特征数

需要先使用vec.fit ，再使用vec.transform 才有效

3. vec = TfidfVectorizer(lowercase=False, max_features=4000) # 从sklean.extract_feature.text 导入，根据TF-dif做一个数字的映射，max_feature表示的是最大的特征数

4.MultinomialNB() 进行贝叶斯模型的构建，这里使用的是一个向量相似度的计算，采用的是余弦定理，from sklean,naive_bayes

对于需要构成语料库的数据，我们需要去停用词

停用词包括

1. 语料中大量出现的如 1.！， 2.", 3.#, 4.$, 5.%

2. 没啥大用 1.一下 2.一些 3.一项 4.一则

关键词提取

TF-IDF

比如有3个词：中国,蜜蜂,养殖

TF（词频）：表示的是蜜蜂在这个文章里出现的次数，即词频/ 这个文章词的个数

IDF(拟文档评率)：表示的是log（文章总数/出现这个词文章的个数+1）比如一共有10000个文章，出现这个词的文章为100，那么idf约等于3

TF-IDF = TF * IDF

相似度计算：

比如句子A: 我喜欢看电视，不喜欢看电影

句子B: 我不喜欢看电视，也不喜欢看电影

对两个句子进行分词，语料库：我，喜欢，看，电视，电影，不，也

统计词频：

句子A : 我1，喜欢2，看2，电视1，不1，电影1，也0

句子B: 我1，喜欢2，看2，电视1，不2，电影1，也1

转换为向量的形式

A = [1, 2, 2, 1, 1, 1, 0]

B = [1, 2, 2, 1, 2, 1, 1]

使用余弦相似度来进行相似度的匹配，做为p(d|h)

1.载入新闻数据

2.使用结巴分词器进行分词

3.将分词后的结果去除停用词

4. 将去除停用词的数据增加一列标签

5.进行数据的拆分，分成训练数据和测试数据

6.对训练数据和测试数据进行文本表示，使用CountVectorizer()，先fit训练数据的变量，然后在分别transform训练数据和测试数据，进行词频向量化操作

7.使用贝叶斯进行训练和预测

import pandas as pd

import numpy as np

import jieba

# 1.导入数据语料的新闻数据

df_data = pd.read_table('data/val.txt', names=['category', 'theme', 'URL', 'content'], encoding='utf-8')

# 2.对语料库进行分词操作

df_contents = df_data.content.values.tolist()

# list of list 结构

Jie_content = []

for df_content in df_contents:

    split_content = jieba.lcut(df_content)

    if len(split_content) > 1 and split_content != '\t\n':

        Jie_content.append(split_content)

# 3. 导入停止词的语料库, sep='\t'表示分隔符， quoting控制引号的常量， names=列名， index_col=False，不用第一列做为行的列名， encoding

stopwords = pd.read_csv('stopwords.txt', sep='\t', quoting=3, names=['stopwords'], index_col=False, encoding='utf-8')

print(stopwords.head())

# 对文本进行停止词的去除

def drop_stops(Jie_content, stopwords):

    clean_content = []

    all_words = []

    for j_content in Jie_content:

        line_clean = []

        for line in j_content:

            if line in stopwords:

                continue

            line_clean.append(line)

            all_words.append(line)

        clean_content.append(line_clean)

    return clean_content, all_words

# 将DateFrame的stopwords数据转换为list形式

stopwords = stopwords.stopwords.values.tolist()

clean_content, all_words = drop_stops(Jie_content, stopwords)

print(clean_content[0])

# 4. 构造训练数据，变量是content，标签是category

df_content = pd.DataFrame({'content':clean_content, 'label':df_data['category']})

# 使用map将标签转换为数字形式

print(df_content.label.unique())

label_map = {'汽车':1, '财经':2, '科技':3, '健康':4, '体育':5, '教育':6, '文化':7, '军事':8, '娱乐':9, '时尚':10}

df_content['label'] = df_content['label'].map(label_map)

# 5.使用train_test_split 分出训练集和测试集

from sklearn.cross_validation import train_test_split

train_x, test_x, train_y, test_y = train_test_split(df_content['content'], df_content['label'], random_state=1)

# 将样本特征转换为词频向量的形式

from sklearn.feature_extraction.text import CountVectorizer

# 6. 为了满足CountVectorizer的形式，我们需要对转换前的样本做转换

train_x_str = []

for line in train_x:

    str_line = ' '.join(line)

    train_x_str.append(str_line)

test_x_str = []

for line in test_x:

    str_line = ' '.join(line)

    test_x_str.append(str_line)

# 将文本数据根据词频转换为向量形式

vec = CountVectorizer(lowercase=False, max_features=4000)

vec.fit(train_x_str)

# 7步 使用贝叶斯模型进行训练和测试

from sklearn.naive_bayes import MultinomialNB

print('', np.shape(vec.transform(train_x_str)))

classifier = MultinomialNB()

classifier.fit(vec.transform(train_x_str), train_y)

print(classifier.score(vec.transform(test_x_str), test_y))

# 8. 使用TF-IDF构建向量矩阵

from sklearn.feature_extraction.text import TfidfVectorizer

vec = TfidfVectorizer(lowercase=False, max_features=4000)

vec.fit(train_x_str)

classifier.fit(vec.transform(train_x_str), train_y)

print(classifier.score(vec.transform(test_x_str), test_y))

vec = TfidfVectorizer(lowercase=False, max_features=4000, ngram_range=(1, 3))

vec.fit(train_x_str)

classifier.fit(vec.transform(train_x_str), train_y)

print(classifier.score(vec.transform(test_x_str), test_y))

机器学习入门-贝叶斯中文新闻分类任务 1. .map(做标签数字替换) 2.CountVectorizer(词频向量映射) 3.TfidfVectorizer(TFDIF向量映射) 4.MultinomialNB()贝叶斯模型构建的更多相关文章

朴素贝叶斯算法——实现新闻分类（Sklearn实现）
1.朴素贝叶斯实现新闻分类的步骤 (1)提供文本文件,即数据集下载 (2)准备数据将数据集划分为训练集和测试集:使用jieba模块进行分词,词频统计,停用词过滤,文本特征提取,将文本数据向量化停用 ...
Python之机器学习-朴素贝叶斯(垃圾邮件分类)
目录朴素贝叶斯(垃圾邮件分类) 邮箱训练集下载地址模块导入文本预处理遍历邮件训练模型测试模型朴素贝叶斯(垃圾邮件分类) 邮箱训练集下载地址邮箱训练集可以加我微信:nickchen121 ...
机器学习入门-贝叶斯构造LDA主题模型，构造word2vec 1.gensim.corpora.Dictionary(构造映射字典) 2.dictionary.doc2vec(做映射) 3.gensim.model.ldamodel.LdaModel(构建主题模型)4lda.print_topics(打印主题).
1.dictionary = gensim.corpora.Dictionary(clean_content) 对输入的列表做一个数字映射字典, 2. corpus = [dictionary,do ...
NLP系列(2)_用朴素贝叶斯进行文本分类(上)
作者:龙心尘 && 寒小阳时间:2016年1月. 出处: http://blog.csdn.net/longxinchen_ml/article/details/50597149 h ...
NLP系列(3)_用朴素贝叶斯进行文本分类(下)
作者: 龙心尘 && 寒小阳时间:2016年2月. 出处: http://blog.csdn.net/longxinchen_ml/article/details/50629110 ...
贝叶斯--旧金山犯罪分类预测和电影评价好坏 demo
来源引用:https://blog.csdn.net/han_xiaoyang/article/details/50629608 1.引言贝叶斯是经典的机器学习算法,朴素贝叶斯经常运用于机器学习的案 ...
TensorFlow.NET机器学习入门【4】采用神经网络处理分类问题
上一篇文章我们介绍了通过神经网络来处理一个非线性回归的问题,这次我们将采用神经网络来处理一个多元分类的问题. 这次我们解决这样一个问题:输入一个人的身高和体重的数据,程序判断出这个人的身材状况,一共三 ...
基于Text-CNN模型的中文文本分类实战流川枫发表于AI星球订阅
Text-CNN 1.文本分类转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结. 本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于T ...
基于Text-CNN模型的中文文本分类实战
Text-CNN 1.文本分类转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结. 本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于T ...

随机推荐

Where is Silverlight now?
Some time ago, I wrote an article about the comparison between HTML5 and Silverlight. That article w ...
juc并发工具类之CountDownLatch闭锁
import java.util.concurrent.CountDownLatch; /** * 闭锁: 在进行某些运算时, 只有其他所有线程的运算全部完成,当前运算才继续执行(程序流中加了一道栅栏 ...
js 各种循环遍历
js 各种循环遍历(表格比较) 遍历方法能否遍历数组能否遍历对象备注 for 能不能 for in 能(有诸多缺点) 能为遍历对象而设计的,不适用于遍历数组 forEach 能不能 bre ...
解决webpack不是内部命令
在指定路径下安装webpack npm install webpack --save-dev 但是报”不是内部命令错误" 解决方法:安装全局webpack npm install web ...
Microsoft Dynamics CRM 4.0 Plugin 取值，赋值，查询
DynamicEntity postImageEntity = (DynamicEntity)context.PostEntityImages["PostImage"]; if ( ...
python 异常类型----后期需理解调整
1.Python内建异常体系结构The class hierarchy for built-in exceptions is: BaseException +-- SystemExit +-- Key ...
wxWidgets：处理wxEVT_PAINT
我们仍然以继承于wxFrame的MyFrame作为例子. MyFrame.h: class MyFrame : public wxFrame { ...... private: ...... void ...
[转][SVN]常用操作
1. Commit 提交当前代码到 SVN 服务器. 2. 引用第三方类库时,不要从安装位置引用,而是在解决方案下,添加一个 lib 的目录,把需要的程序集复制到这里,然后从 lib 目录引用. 3 ...
chronyd时间服务器同步时间配置
chrony是两个用来维持计算机系统时钟准确性的程序,这两个程序命名为chronyd和chronyc. chronyd是一个在系统后台运行的守护进程.他根据网络上其他时间服务器时间来测量本机时间的偏移 ...
Lua中的metatable详解
转自:http://www.jb51.net/article/56690.htm Lua 中 metatable 是一个普通的 table,但其主要有以下几个功能: 1.定义算术操作符和关系操作符的行 ...

机器学习入门-贝叶斯中文新闻分类任务 1. .map(做标签数字替换) 2.CountVectorizer(词频向量映射) 3.TfidfVectorizer(TFDIF向量映射) 4.MultinomialNB()贝叶斯模型构建

机器学习入门-贝叶斯中文新闻分类任务 1. .map(做标签数字替换) 2.CountVectorizer(词频向量映射) 3.TfidfVectorizer(TFDIF向量映射) 4.MultinomialNB()贝叶斯模型构建的更多相关文章

随机推荐

热门专题