机器学习入门-贝叶斯统计语料库的词频.groupby() collections

1..groupby()[].agg(by={})

2. collections.de...(lambda:1)

统计的单词是语料库中所有的词，对Dataframe统计单词词频，同时增加一列数据count，这里我们使用reset_index,sort_values(by = ['counts], ascending=False)

这里使用的数据是经过分词后的语料库里所有的数据，该数据已经去除了停用词，

第一步：载入语料库的数据

第二步：进行分词

第三步：载入停用词，对停用词数据进行序列化tolist(),然后去除分词后语料库中的停用词

第四步：使用grouby()[].agg 进行词频统计，使用reset_index().sort_values根据新增的counts列进行排序操作

# 1.导入数据语料的新闻数据

df_data = pd.read_table('data/val.txt', names=['category', 'theme', 'URL', 'content'], encoding='utf-8')

# 2.对语料库进行分词操作

df_contents = df_data.content.values.tolist()

# list of list 结构

Jie_content = []

for df_content in df_contents:

    split_content = jieba.lcut(df_content)

    if len(split_content) > 1 and split_content != '\t\n':

        Jie_content.append(split_content)

# 3. 导入停止词的语料库, sep='\t'表示分隔符， quoting控制引号的常量， names=列名， index_col=False，不用第一列做为行的列名， encoding

stopwords = pd.read_csv('stopwords.txt', sep='\t', quoting=3, names=['stopwords'], index_col=False, encoding='utf-8')

print(stopwords.head())

# 对文本进行停止词的去除

def drop_stops(Jie_content, stopwords):

    clean_content = []

    all_words = []

    for j_content in Jie_content:

        line_clean = []

        for line in j_content:

            if line in stopwords:

                continue

            line_clean.append(line)

            all_words.append(line)

        clean_content.append(line_clean)

    return clean_content, all_words

# 将DateFrame的stopwords数据转换为list形式

stopwords = stopwords.stopwords.values.tolist()

clean_content, all_words = drop_stops(Jie_content, stopwords)

print(clean_content[0])

# 4 .对所有词统计词频，做一个字典，然后进行排序， 这里也可以使用collections实现

df_dict = pd.DataFrame({'content':clean_content})

all_words_pd = pd.DataFrame({'all_word':all_words})

all_words_pd = all_words_pd.groupby(by=['all_word'])['all_word'].agg({'count':np.size})

all_words_pd = all_words_pd.reset_index().sort_values(by=['count'], ascending=False)

print(all_words_pd.head())

机器学习入门-贝叶斯统计语料库的词频.groupby() collections的更多相关文章

机器学习入门-文本数据-构造词频词袋模型 1.re.sub(进行字符串的替换) 2.nltk.corpus.stopwords.words(获得停用词表) 3.nltk.WordPunctTokenizer(对字符串进行分词操作) 4.np.vectorize(对函数进行向量化) 5. CountVectorizer(构建词频的词袋模型)
函数说明: 1. re.sub(r'[^a-zA-Z0-9\s]', repl='', sting=string) 用于进行字符串的替换,这里我们用来去除标点符号参数说明:r'[^a-zA-Z0- ...
python机器学习入门-（1）
机器学习入门项目如果你和我一样是一个机器学习小白,这里我将会带你进行一个简单项目带你入门机器学习.开始吧! 1.项目介绍这个项目是针对鸢尾花进行分类,数据集是含鸢尾花的三个亚属的分类信息,通过机器 ...
[转]MNIST机器学习入门
MNIST机器学习入门转自:http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/mnist_beginners.html?plg_ ...
Azure机器学习入门（三）创建Azure机器学习实验
在此动手实践中,我们将在Azure机器学习Studio中一步步地开发预测分析模型,首先我们从UCI机器学习库的链接下载普查收入数据集的样本并开始动手实践: http://archive.ics.uci ...
机器学习入门 - Google机器学习速成课程 - 笔记汇总
机器学习入门 - Google机器学习速成课程 https://www.cnblogs.com/anliven/p/6107783.html MLCC简介前提条件和准备工作完成课程的下一步机器学 ...
web安全之机器学习入门——3.1 KNN/k近邻
目录 sklearn.neighbors.NearestNeighbors 参数/方法基础用法用于监督学习检测异常操作(一) 检测异常操作(二) 检测rootkit 检测webshell skl ...
tensorfllow MNIST机器学习入门
MNIST机器学习入门这个教程的目标读者是对机器学习和TensorFlow都不太了解的新手.如果你已经了解MNIST和softmax回归(softmax regression)的相关知识,你可以阅读 ...
【机器学习】机器学习入门08 - 聚类与聚类算法K-Means
时间过得很快,这篇文章已经是机器学习入门系列的最后一篇了.短短八周的时间里,虽然对机器学习并没有太多应用和熟悉的机会,但对于机器学习一些基本概念已经差不多有了一个提纲挈领的了解,如分类和回归,损失函数 ...
机器学习入门:K-近邻算法
机器学习入门:K-近邻算法先来一个简单的例子,我们如何来区分动作类电影与爱情类电影呢?动作片中存在很多的打斗镜头,爱情片中可能更多的是亲吻镜头,所以我们姑且通过这两种镜头的数量来预测这部电影的主题. ...

随机推荐

Django FBV和CBV -
一.FBV和CBV 在Python菜鸟之路:Django 路由.模板.Model(ORM)一节中,已经介绍了几种路由的写法及对应关系,那种写法可以称之为FBV: function base view ...
java基本数据类型和引用类型
这些基本的数据类型是点不出东西来的 3种引用类型类class 接口interface 数组array 第一个 : 类 Integer Long Boolean Byte Characte ...
如何彻底卸载Jenkins（Windows版本）
起因: 最近在做持续集成测试过程中遇到一个问题,之前部署的Jenkins管理员密码忘了之后无法登陆,而且删除掉tomcat下webapps文件夹中的Jenkins目录后,再次安装Jenkins后相关的 ...
window.open 和 location.href 区别
window.open():可以在一个网站上打开另外的一个网站的地址 window.location():只能在一个网站中打开本网站的网页
php常量PHP_EOL
换行符 unix系列用 \n windows系列用 \r\n mac用 \r PHP中可以用PHP_EOL来替代,以提高代码的源代码级可移植性如: <?php echo PHP_EOL; // ...
转 Fiddler导出jmeter脚本
前提条件: 1.下载安装抓包工具Fiddler 2.下载Fiddler插件,参考下载地址:http://download.csdn.net/ ...
Scrapy下xpath基本的使用方法
Scrapy是基于python的开源爬虫框架,使用起来也比较方便.具体的官网档:http://doc.scrapy.org/en/latest/ 之前以为了解python就可以直接爬网站了,原来还要了 ...
Android画图之抗锯齿 paint 和 Canvas 两种方式
在画图的时候,图片如果旋转或缩放之后,总是会出现那些华丽的锯齿.其实Android自带了解决方式. 方法一:给Paint加上抗锯齿标志.然后将Paint对象作为参数传给canvas的绘制方法. ...
react组件的创建
最近项目接触react和rn,之前会一些vue和小程序,起初写react是很难受的,尤其是jsx的写法,不过2周过后感觉写起来有点舒服了... 目前react的组件一共有3种方式:React.crea ...
python-并发测试用例
以前看了虫师的并发,然后觉得以后如果遇上领导要求一个模块里的并发怎么办,然后就想到了下面的方法: 代码: 在原有的基础下再往casedir数组加模块三里面细分的对象.(这里可以封装成函数调用,工作需要 ...

机器学习入门-贝叶斯统计语料库的词频.groupby() collections

机器学习入门-贝叶斯统计语料库的词频.groupby() collections的更多相关文章

随机推荐

热门专题