源码请到：自然语言处理练习: 学习自然语言处理时候写的一些代码 (gitee.com)

数据来源：

搜狗新闻语料库由于链接失效，现在使用百度网盘分享

链接：https://pan.baidu.com/s/1RTx2k7V3Ujgg9-Rv8I8IRA?pwd=ujn3
提取码：ujn3

停用词来源于网络

链接：https://pan.baidu.com/s/1ePrf4_gWx8_pTn6PEjTtCw?pwd=5jov
提取码：5jov

字样式文件来源于网络

链接：https://pan.baidu.com/s/1uVreJY-MKhz1HXzAw5e4VQ?pwd=8ill
提取码：8ill

一、tf-idf简介

TF = 某词在文章中出现的次数/该文章中出现最多词出现的次数

IDF = log(文章总数/包含该词的文章数+1)

TF-IDF = TF * IDF

二、加载数据集

# 载入数据集

df_news = pd.read_table('./data/val.txt', names=['category', 'theme', 'URL', 'content'], encoding='utf-8')

df_news = df_news.dropna()

print(df_news.head())

print(df_news.shape)

可以看到有5000行4列的数据，其中第一列可以作为新闻分类的标签，最后一列为新闻内容

三、分词

首先将数据转换为list格式

# 转换为list格式

content = df_news.content.values.tolist()

print(content[1000])

将最后一列数据摘出来转换成了一个字符串列表，就可以进行分词操作

# 分词

content_S = []

for line in content:

    current_segment = jieba.lcut(line)

    if len(current_segment) > 1 and current_segment != '\r\n':

        content_S.append(current_segment)

print(content_S[1000])

df_content = pd.DataFrame({'content_S': content_S})

print(df_content.head())

四、去掉停用词

可以看出上面还有许多没有价值的词作干扰，所以我们加载停用词库并且去掉停用词

# 加载停用词

stopwords = pd.read_csv('./data/stopwords.txt', index_col=False, sep='\t', quoting=3, names=['stopword'],

                        encoding='utf-8')

print(stopwords.head(20))

# 去掉停用词

def drop_stopwords(contents, stopwords):

    contents_clean = []

    all_words = []

    for line in contents:

        line_clean = []

        for word in line:

            if word in stopwords:

                continue

            line_clean.append(word)

            all_words.append(str(word))

        contents_clean.append(line_clean)

    return contents_clean, all_words

contents = df_content.content_S.values.tolist()

stopwords = stopwords.stopword.values.tolist()

contents_clean, all_words = drop_stopwords(contents, stopwords)

df_content = pd.DataFrame({'contents_clean': contents_clean})

print(df_content.head())

df_all_words = pd.DataFrame({'all_words': all_words})

print(df_all_words.head())

五、计算词频

# 计算词频

words_count = df_all_words.groupby(by=['all_words'])['all_words'].agg(count='count')

words_count = words_count.reset_index().sort_values(by=['count'], ascending=False)

print(words_count.head())

六、绘制词云

七、使用tf-idf提取关键词

# tf-idf

index = 1000

print(df_news['content'][index])

content_S_str = ''.join(content_S[index])

print(' '.join(jieba.analyse.extract_tags(content_S_str, topK=5, withWeight=False)))

八、使用主题模型提取关键词

# LDA

dictionary = corpora.Dictionary(contents_clean)

corpus = [dictionary.doc2bow(sentence) for sentence in contents_clean]

lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20)

print(lda.print_topic(1, topn=5))

for topic in lda.print_topics(num_topics=20, num_words=5):

    print(topic[1])

可以看出第一类词的成分权重

这是所有类型的词成分权重

九、使用贝叶斯算法进行分类

# 贝叶斯算法进行分类

df_train = pd.DataFrame({'contents_clean': contents_clean, 'label': df_news['category']})

print(df_train.tail())

print(df_train.label.unique())

label_mapping = {'汽车': 1, '财经': 2, '科技': 3, '健康': 4, '体育': 5, '教育': 6, '文化': 7, '军事': 8, '娱乐': 9,

                 '时尚': 0}

df_train['label'] = df_train['label'].map(label_mapping)

print(df_train.head())

x_train, x_test, y_train, y_test = train_test_split(df_train['contents_clean'].values, df_train['label'].values)

print(x_train[0][1])

words = []

for line_index in range(len(x_train)):

    words.append(' '.join(x_train[line_index]))

print(words[0])

print(len(words))

# 计算词频构造向量

vec = CountVectorizer(analyzer='word', max_features=4000, lowercase=False)

vec.fit(words)

classifier = MultinomialNB()

classifier.fit(vec.transform(words), y_train)

test_words = []

for line_index in range(len(x_test)):

    test_words.append(' '.join(x_test[line_index]))

print(test_words[0])

print(len(test_words))

print(classifier.score(vec.transform(test_words), y_test))

# tf-idf构造词向量

vec2 = TfidfVectorizer(analyzer='word', max_features=4000, lowercase=False)

vec2.fit(words)

classifier = MultinomialNB()

classifier.fit(vec2.transform(words), y_train)

print(classifier.score(vec2.transform(test_words), y_test))

# 词频构造多维向量形式构造词向量

vec3 = CountVectorizer(analyzer='word', max_features=4000, lowercase=False, ngram_range=(1, 2))

vec3.fit(words)

classifier = MultinomialNB()

classifier.fit(vec3.transform(words), y_train)

print(classifier.score(vec3.transform(test_words), y_test))

# tfidf构造多维向量形式构造词向量

vec4 = TfidfVectorizer(analyzer='word', max_features=4000, lowercase=False, ngram_range=(1, 2))

vec4.fit(words)

classifier = MultinomialNB()

classifier.fit(vec4.transform(words), y_train)

print(classifier.score(vec4.transform(test_words), y_test))

可以看出不同方法构成词向量对结果产生了影响，使用tf-idf方法构建词向量比单纯使用词频构建词向量准确率高一些，将词向量扩充多维比不扩充准确率稍微高一些

nlp入门（四）新闻分类实验的更多相关文章

阿里天池 NLP 入门赛 TextCNN 方案代码详细注释和流程讲解
thumbnail: https://image.zhangxiann.com/jung-ho-park-HbnqEhMBpPM-unsplash.jpg toc: true date: 2020/8 ...
2017年实验四 B2C模拟实验
实验四 B2C模拟实验 [实验目的] 掌握网上购物的基本流程和B2C平台的运营 [实验条件] ⑴.个人计算机一台 ⑵.计算机通过局域网形式接入互联网. (3).奥派电子商 ...
ArcGIS10从入门到精通系列实验图文教程（附配套实验数据持续更新）
@ 目录 1. 专栏简介 2. 专栏地址 3. 专栏目录 1. 专栏简介本教程<ArcGIS从入门到精通系列实验教程>内容包括:ArcGIS平台简介.ArcGIS应用基础.空间数据的采集 ...
NLP入门（五）用深度学习实现命名实体识别（NER）
前言在文章:NLP入门(四)命名实体识别(NER)中,笔者介绍了两个实现命名实体识别的工具--NLTK和Stanford NLP.在本文中,我们将会学习到如何使用深度学习工具来自己一步步地实现N ...
20165230 《Java程序设计》实验四 Android程序设计实验报告
20165230 <Java程序设计>实验四 Android程序设计实验报告一.实验报告封面课程:Java程序设计班级:1652班姓名:田坤烨学号:20165230 成绩: 指导 ...
Python爬虫入门四之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
转 Python爬虫入门四之Urllib库的高级用法
静觅 » Python爬虫入门四之Urllib库的高级用法 1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我 ...
2016年实验四 B2B模拟实验
实验四 B2B模拟实验 [实验目的] ⑴.掌握B2B中供应商的供求信息发布.阿里商铺开设和订单交易等过程. ⑵.掌握B2B中采购商的采购信息的发布.交易洽谈.网上支付和收货等过程. [实验条件] ⑴ ...
【原创】NIO框架入门(四)：Android与MINA2、Netty4的跨平台UDP双向通信实战
概述本文演示的是一个Android客户端程序,通过UDP协议与两个典型的NIO框架服务端,实现跨平台双向通信的完整Demo. 当前由于NIO框架的流行,使得开发大并发.高性能的互联网服务端成为可能. ...
python学习笔记--Django入门四管理站点--二
接上一节 python学习笔记--Django入门四管理站点设置字段可选编辑Book模块在email字段上加上blank=True,指定email字段为可选,代码如下: class Autho ...

随机推荐

2023-04-06：拥抱Golang，优化FFmpeg音频编码器，探究encode_audio.c的内部结构。
2023-04-06:拥抱Golang,优化FFmpeg音频编码器,探究encode_audio.c的内部结构. 答案2023-04-06: 见moonfdd/ffmpeg-go库. 这段代码是一个示 ...
2020-10-02：golang如何写一个插件？
福哥答案2020-10-02:#福大大架构师每日一题#简单回答:buildmode=plugin plugin.Openp.Lookup [中级回答:](https://www.zhihu.com/q ...
this关键字理解
编译器对对象的加载步骤: (1)类名 (2)成员变量 (3)成员方法即使定义类时,成员变量写在成员方法后面,加载对象时,也是先加载成员变量当编译器识别方法时,会对成员方法改写,在所有方法里隐藏一个 ...
windows下搭建docker容器环境
下载Docker Desktop https://www.docker.com/ 安装Docker Desktop(软件默认安装c盘,若要安装到其他盘,在安装之前创建软连接再进行安装) 在自定义磁盘中 ...
使用Cordova插件实现两个app之间的相互调用和通讯
几年前使用Cordova 进行两个app之间的相互调用和通讯:当时也是几经折腾,今天把它整理出来,理一下思路,也方便有同样需求的朋友参考一.require引入 plugin require(&quo ...
小程序使用wx.navigateTo无法跳转到加了tabBar的页面
随着小程序的不断更新,发现目前的小程序版本使用navigator无法跳转到加了tabBar的页面:后来使用redirectTo进行跳转也不行:在刚开始也是纠结了好久一直找不到解决办法.最后从官方文档中 ...
.netcore中的虚拟文件EmbeddedFile
以前一直比较好奇像swagger,cap,skywalking等组件是如何实现引用一个dll即可在网页上展示界面的,难道这么多html,js,css等都是硬编码写死在代码文件中的?后面接触apb里面也 ...
【Rust-book】第五章使用结构体来组织相关联的数据
第五章使用结构体来组织相关联的数据结构,或者结构体,是一种自定义数据类型,它允许我们命名多个相关的值并将它们组成一个有机的结合体. 可以把结构体视作对象中的数据属性 1 对比元组和结构体之间的异同 ...
数位DP？记忆化罢了！
我看了半天的数位 DP,DP 没学会,人倒是麻了. 解决什么一般用于求解给你一个区间 \([l,r]\),问你其中满足条件的数有多少个. 这种题目还是蛮常见的,我们一般情况下暴力只能拿一少部分分,之 ...
微信小程序脚手架火爆来袭，集成 Taro、uniapp 第三方模版，支持小程序 CI 上传，预览，发布
微信小程序脚手架 @wechat-mp/cli 微信小程序脚手架,集成 Taro.uniapp 第三方模版,支持小程序 CI 上传,预览,发布注意事项需要在微信公众平台开发管理-开发设置-IP白名 ...

nlp入门（四）新闻分类实验