Newsgroups数据集研究

wqbin 2024-11-07 02:22:27 原文

1.数据集介绍

20newsgroups数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。

数据集收集了大约20,000左右的新闻组文档，均匀分为20个不同主题的新闻组集合。

一些新闻组的主题特别相似(e.g. comp.sys.ibm.pc.hardware/ comp.sys.mac.hardware)，还有一些却完全不相关 (e.g misc.forsale /soc.religion.christian)。

20newsgroups数据集有三个版本：

第一个版本19997是原始的并没有修改过的版本：20news-19997.tar.gz –原始20 Newsgroups数据集

第二个版本bydate是按时间顺序分为训练(60%)和测试(40%)两部分数据集，不包含重复文档和新闻组名（新闻组，路径，隶属于，日期）：20news-bydate.tar.gz –按时间分类; 不包含重复文档和新闻组名(18846 个文档)

第三个版本18828不包含重复文档，只有来源和主题：20news-18828.tar.gz– 不包含重复文档，只有来源和主题 (18828 个文档)

在sklearn中，该模型有两种装载方式：

第一种是sklearn.datasets.fetch_20newsgroups，返回一个可以被文本特征提取器（如sklearn.feature_extraction.text.CountVectorizer）自定义参数提取特征的原始文本序列；

第二种是sklearn.datasets.fetch_20newsgroups_vectorized，返回一个已提取特征的文本序列，即不需要使用特征提取器。

2.数据集下载

使用ptyhon进行下载：

from sklearn.datasets import fetch_20newsgroups

corpus_path = './corpora_data'

data_train = fetch_20newsgroups(data_home=corpus_path, subset='train', categories=categories, shuffle=True, random_state=0, remove=remove)

data_test = fetch_20newsgroups(data_home=corpus_path, subset='test', categories=categories, shuffle=True, random_state=0, remove=remove)

发现真的很卡。。。放弃

3.使用本地数据集

采取第二种方案：

1.下载文件

点击它给出的链接：20news-bydate.tar.gz –按时间分类; 不包含重复文档和新闻组名(18846 个文档)

2.路径修改

（1）下载后直接放在d:盘路径下

（2）

找到文件Anaconda3\Lib\site-packages\sklearn\datasets\twenty_newsgroups.py

修改把在下载的代码注销（红色），增加路径（蓝色）

检查是否成功：如果在当前项目有如下路径则成功

Newsgroups数据集研究的更多相关文章

Natural Language Generation/Abstractive Summarization
调研目的: 了解生成式文本摘要的常用技术和当前的发展趋势,明确当前项目有什么样的摘要需求,判断现有技术能否用于满足当前的需求,进一步明确毕业设计方向及其可行性调研方向: 项目中需要用到摘要的地方以及 ...
MLLib实践Naive Bayes
引言本文基于Spark (1.5.0) ml库提供的pipeline完整地实践一次文本分类.pipeline将串联单词分割(tokenize).单词频数统计(TF),特征向量计算(TF-IDF),朴 ...
《mahout实战》
<mahout实战> 基本信息原书名:Mahout in action 作者: (美)Sean Owen Robin Anil Ted Dunning Ellen Fr ...
2020厦门大学综述翻译：3D点云深度学习（Remote Sensiong期刊）
目录摘要 1.引言: 2.点云深度学习的挑战 3.基于结构化网格的学习 3.1 基于体素 3.2 基于多视图 3.3 高维晶格 4.直接在点云上进行的深度学习 4.1 PointNet 4.2 局部 ...
R语言重要数据集分析研究——需要整理分析阐明理念
1.R语言重要数据集分析研究需要整理分析阐明理念? 上一节讲了R语言作图,本节来讲讲当你拿到一个数据集的时候如何下手分析,数据分析的第一步,探索性数据分析. 统计量,即统计学里面关注的数据集的几个指标 ...
R语言重要数据集分析研究——R语言数据集的字段含义
R语言数据集的字段含义作者:马文敏选择一种数据结构来储存数据将数据输入或导入到这个数据结构中数据集的概念数据集通常是有数据结构的一个矩形数组,行表示规则,列表示变量. 不同的行业对数据集的行 ...
R语言重要数据集分析研究—— 数据集本身的分析技巧
数据集本身的分析技巧作者:王立敏文章来源:网络 1.数据集数据集,又称为资料集.数据集合或资料集合,是一种由数据所组成的集合. Data set(或dat ...
R语言重要数据集分析研究——搞清数据的由来
搞清数据的由来作者:李雪丽资料来源:百度百科
[转]最好用的 AI 开源数据集 Top 39：NLP、语音等 6 大类
原文链接本文修正部分错误. 以下是精心收集的一些非常好的开放数据集,也是做 AI 研究不容错过的数据集. 标签解释 [经典]这些是在 AI 领域中非常著名.众所周知的数据集.很少有研究者或工程师没有 ...

随机推荐

PJzhang:任意密码重置的常规姿势
猫宁!!! 之前在360补天看过carry_your分享的46分钟短视频“任意用户密码重置的10种姿势”. 在京东SRC安全小课堂第89期,也有一篇他的文章:web漏洞之逻辑漏洞挖掘.内容朴实无华. ...
Pandas使用细则
本文介绍pandas的使用,总结了我在机器学习过程中常使用到的一些方法等. #pandas学习 import pandas as pd import numpy as np import seabor ...
关联SecureCRT
建议安装SecureCRT 8.1及其以上版本,打开http://EVE-NG地址/files/windows.zip下载eve-ng的Windows关联文件,然后使用文本编辑工具编辑win7_64b ...
WDS部署基础知识：使用WDS捕获与应用映像（使用WDS定制系统和应用）
WDS部署基础知识:使用WDS捕获与应用映像(使用WDS定制系统和应用) Win7部署基础知识(8):使用WDS捕获与应用映像一.添加映像组使用WDS捕获映像时,会将映像加载到WDS服务器的映像 ...
U盘安装win7"安装程序无法创建新的系统分区" 怎么办
装WIN7的朋友,不知遇到该类问题没有: 当我们通过PE进行WIN7 纯安装的时候(非ghost安装),系统提示”安装程序无法创建新的系统分区,也无法定位现有分区“,迫使我们操作终断,无法进行. 面 ...
Windows Runtime (RT)
学了sl for wp 开发了1年都没入门,只能说自己的学习欲望太低了. 今天偶然才发现wrt 跟 .net 是2个东西... orz. 得抛弃 sl ,wrt才是未来的主流吧... 这篇文章不错 h ...
Java线程和进程
一.线程 1.什么是线程: 线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位.一个进程至少包含一个线程,也可以多个,线程属于进程. 2.Java中线程经历的四个 ...
Elasticsearch入门教程(六)：Elasticsearch查询(二)
原文:Elasticsearch入门教程(六):Elasticsearch查询(二) 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:h ...
安装kubuctl
安装和设置kubectl 使用Kubernetes命令行工具kubectl在Kubernetes上部署和管理应用程序.使用kubectl,可以检查集群资源; 创建,删除和更新组件. 以下是安装kube ...
关于redis的几件小事(六)redis的持久化
1.redis持久化的意义 redis持久化的意义,在于故障恢复 . 如果没有对数据进行持久化,那么如果redis遇到灾难性的故障,就会丢失所有的数据. 如果通过redis的持久化机制将数据持久化到 ...