源码请到：自然语言处理练习: 学习自然语言处理时候写的一些代码 (gitee.com)

数据来源：

搜狗新闻语料库由于链接失效，现在使用百度网盘分享

链接：https://pan.baidu.com/s/1RTx2k7V3Ujgg9-Rv8I8IRA?pwd=ujn3
提取码：ujn3

停用词来源于网络

链接：https://pan.baidu.com/s/1ePrf4_gWx8_pTn6PEjTtCw?pwd=5jov
提取码：5jov

字样式文件来源于网络

链接：https://pan.baidu.com/s/1uVreJY-MKhz1HXzAw5e4VQ?pwd=8ill
提取码：8ill

一、tf-idf简介

TF = 某词在文章中出现的次数/该文章中出现最多词出现的次数

IDF = log(文章总数/包含该词的文章数+1)

TF-IDF = TF * IDF

二、加载数据集

# 载入数据集

df_news = pd.read_table('./data/val.txt', names=['category', 'theme', 'URL', 'content'], encoding='utf-8')

df_news = df_news.dropna()

print(df_news.head())

print(df_news.shape)

可以看到有5000行4列的数据，其中第一列可以作为新闻分类的标签，最后一列为新闻内容

三、分词

首先将数据转换为list格式

# 转换为list格式

content = df_news.content.values.tolist()

print(content[1000])

将最后一列数据摘出来转换成了一个字符串列表，就可以进行分词操作

# 分词

content_S = []

for line in content:

    current_segment = jieba.lcut(line)

    if len(current_segment) > 1 and current_segment != '\r\n':

        content_S.append(current_segment)

print(content_S[1000])

df_content = pd.DataFrame({'content_S': content_S})

print(df_content.head())

四、去掉停用词

可以看出上面还有许多没有价值的词作干扰，所以我们加载停用词库并且去掉停用词

# 加载停用词

stopwords = pd.read_csv('./data/stopwords.txt', index_col=False, sep='\t', quoting=3, names=['stopword'],

                        encoding='utf-8')

print(stopwords.head(20))

# 去掉停用词

def drop_stopwords(contents, stopwords):

    contents_clean = []

    all_words = []

    for line in contents:

        line_clean = []

        for word in line:

            if word in stopwords:

                continue

            line_clean.append(word)

            all_words.append(str(word))

        contents_clean.append(line_clean)

    return contents_clean, all_words

contents = df_content.content_S.values.tolist()

stopwords = stopwords.stopword.values.tolist()

contents_clean, all_words = drop_stopwords(contents, stopwords)

df_content = pd.DataFrame({'contents_clean': contents_clean})

print(df_content.head())

df_all_words = pd.DataFrame({'all_words': all_words})

print(df_all_words.head())

五、计算词频

# 计算词频

words_count = df_all_words.groupby(by=['all_words'])['all_words'].agg(count='count')

words_count = words_count.reset_index().sort_values(by=['count'], ascending=False)

print(words_count.head())

六、绘制词云

七、使用tf-idf提取关键词

# tf-idf

index = 1000

print(df_news['content'][index])

content_S_str = ''.join(content_S[index])

print(' '.join(jieba.analyse.extract_tags(content_S_str, topK=5, withWeight=False)))

八、使用主题模型提取关键词

# LDA

dictionary = corpora.Dictionary(contents_clean)

corpus = [dictionary.doc2bow(sentence) for sentence in contents_clean]

lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20)

print(lda.print_topic(1, topn=5))

for topic in lda.print_topics(num_topics=20, num_words=5):

    print(topic[1])

可以看出第一类词的成分权重

这是所有类型的词成分权重

九、使用贝叶斯算法进行分类

# 贝叶斯算法进行分类

df_train = pd.DataFrame({'contents_clean': contents_clean, 'label': df_news['category']})

print(df_train.tail())

print(df_train.label.unique())

label_mapping = {'汽车': 1, '财经': 2, '科技': 3, '健康': 4, '体育': 5, '教育': 6, '文化': 7, '军事': 8, '娱乐': 9,

                 '时尚': 0}

df_train['label'] = df_train['label'].map(label_mapping)

print(df_train.head())

x_train, x_test, y_train, y_test = train_test_split(df_train['contents_clean'].values, df_train['label'].values)

print(x_train[0][1])

words = []

for line_index in range(len(x_train)):

    words.append(' '.join(x_train[line_index]))

print(words[0])

print(len(words))

# 计算词频构造向量

vec = CountVectorizer(analyzer='word', max_features=4000, lowercase=False)

vec.fit(words)

classifier = MultinomialNB()

classifier.fit(vec.transform(words), y_train)

test_words = []

for line_index in range(len(x_test)):

    test_words.append(' '.join(x_test[line_index]))

print(test_words[0])

print(len(test_words))

print(classifier.score(vec.transform(test_words), y_test))

# tf-idf构造词向量

vec2 = TfidfVectorizer(analyzer='word', max_features=4000, lowercase=False)

vec2.fit(words)

classifier = MultinomialNB()

classifier.fit(vec2.transform(words), y_train)

print(classifier.score(vec2.transform(test_words), y_test))

# 词频构造多维向量形式构造词向量

vec3 = CountVectorizer(analyzer='word', max_features=4000, lowercase=False, ngram_range=(1, 2))

vec3.fit(words)

classifier = MultinomialNB()

classifier.fit(vec3.transform(words), y_train)

print(classifier.score(vec3.transform(test_words), y_test))

# tfidf构造多维向量形式构造词向量

vec4 = TfidfVectorizer(analyzer='word', max_features=4000, lowercase=False, ngram_range=(1, 2))

vec4.fit(words)

classifier = MultinomialNB()

classifier.fit(vec4.transform(words), y_train)

print(classifier.score(vec4.transform(test_words), y_test))

可以看出不同方法构成词向量对结果产生了影响，使用tf-idf方法构建词向量比单纯使用词频构建词向量准确率高一些，将词向量扩充多维比不扩充准确率稍微高一些

nlp入门（四）新闻分类实验的更多相关文章

阿里天池 NLP 入门赛 TextCNN 方案代码详细注释和流程讲解
thumbnail: https://image.zhangxiann.com/jung-ho-park-HbnqEhMBpPM-unsplash.jpg toc: true date: 2020/8 ...
2017年实验四 B2C模拟实验
实验四 B2C模拟实验 [实验目的] 掌握网上购物的基本流程和B2C平台的运营 [实验条件] ⑴.个人计算机一台 ⑵.计算机通过局域网形式接入互联网. (3).奥派电子商 ...
ArcGIS10从入门到精通系列实验图文教程（附配套实验数据持续更新）
@ 目录 1. 专栏简介 2. 专栏地址 3. 专栏目录 1. 专栏简介本教程<ArcGIS从入门到精通系列实验教程>内容包括:ArcGIS平台简介.ArcGIS应用基础.空间数据的采集 ...
NLP入门（五）用深度学习实现命名实体识别（NER）
前言在文章:NLP入门(四)命名实体识别(NER)中,笔者介绍了两个实现命名实体识别的工具--NLTK和Stanford NLP.在本文中,我们将会学习到如何使用深度学习工具来自己一步步地实现N ...
20165230 《Java程序设计》实验四 Android程序设计实验报告
20165230 <Java程序设计>实验四 Android程序设计实验报告一.实验报告封面课程:Java程序设计班级:1652班姓名:田坤烨学号:20165230 成绩: 指导 ...
Python爬虫入门四之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
转 Python爬虫入门四之Urllib库的高级用法
静觅 » Python爬虫入门四之Urllib库的高级用法 1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我 ...
2016年实验四 B2B模拟实验
实验四 B2B模拟实验 [实验目的] ⑴.掌握B2B中供应商的供求信息发布.阿里商铺开设和订单交易等过程. ⑵.掌握B2B中采购商的采购信息的发布.交易洽谈.网上支付和收货等过程. [实验条件] ⑴ ...
【原创】NIO框架入门(四)：Android与MINA2、Netty4的跨平台UDP双向通信实战
概述本文演示的是一个Android客户端程序,通过UDP协议与两个典型的NIO框架服务端,实现跨平台双向通信的完整Demo. 当前由于NIO框架的流行,使得开发大并发.高性能的互联网服务端成为可能. ...
python学习笔记--Django入门四管理站点--二
接上一节 python学习笔记--Django入门四管理站点设置字段可选编辑Book模块在email字段上加上blank=True,指定email字段为可选,代码如下: class Autho ...

随机推荐

音视频八股文（9）-- flv的h264六层结构和aac六层结构
flv介绍 FLV(Flash Video)是Adobe公司推出的⼀种流媒体格式,由于其封装后的⾳视频⽂件体积⼩.封装简单等特点,⾮常适合于互联⽹上使⽤.⽬前主流的视频⽹站基本都⽀持FLV.采⽤FLV ...
2020-12-13：用最少数量的线程，每个线程执行for的空循环，把cpu打满了。如果在for的空循环里添加打印输出函数，会把cpu打满吗？为什么？
福哥答案2020-12-13:不会.输出会进行io操作,相对于CPU的速度,这是一个非常缓慢的过程,所以CPU会有机会空闲下来.***[评论](https://user.qzone.qq.com/31 ...
vue全家桶进阶之路40：Vue3父件传值给子件
在Vue3中,可以通过props将父组件的数据传递给子组件.具体步骤如下: 在父组件中定义要传递给子组件的数据,可以是data属性中的数据或者是计算属性computed中的数据. 在子组件中通过pro ...
解决：Error: [WinError 10013] 以一种访问权限不允许的方式做了一个访问套接字的尝试。
启动django应用时报如下错误:Error: [WinError 10013] 以一种访问权限不允许的方式做了一个访问套接字的尝试. 1.首先退出酷狗音乐再试试 2.是8000端口被其他程序占用了, ...
django--循环调用的解决办法
不要导入该APP的包,而是加上双引号写入"App.xxx"
KO之间互相调用
需求假设有两个KO,命名为moduleA.KO,moduleB.KO,现在要实现在moduleB.KO中调用moduleA.KO中的函数. 实现 ModuleA实现源码: #include < ...
GitHub上SSH keys和Deploy keys的区别
平时安装一个git然后去GitHub进行SSH keys 配置最后就开始使用,然后换一台电脑再使用$ ssh-keygen -t rsa -C "your email"生成一个ss ...
泰裤辣！！！手摸手教学，如何训练一个你的专属AI歌姬~
最近在做AIGC的项目,不过是与图片相关的,现在的模型效果可比前几年图片替换效果好多了.之前尝试过用 faceswap 工具来进行人脸替换的,具体可以参看下我之前的这篇文章:https://blog. ...
ConcurrentHashMap是如何实现的？
众所周知 ConcurrentHashMap 是 HashMap 的多线程版本,HashMap 在并发操作时会有各种问题,比如死循环问题.数据覆盖等问题.而这些问题,只要使用 ConcurrentHa ...
Odoo-----计算字段、depnds,onchange 机制、模型约束
1 计算字段和默认值问题字段通过调用模型的方法的实时计算获得,一般都是 compute 属性为主的方法,这个计算方法通过计算self每条记录设置的的值,self 是一个有记录的有序集合,支持py ...

nlp入门（四）新闻分类实验