Python文本数据分析与处理(新闻摘要)

分词
  • 使用jieba分词, 注意lcut只接受字符串
过滤停用词
TF-IDF得到摘要信息或者使用LDA主题模型
  • TF-IDF有两种

    • jieba.analyse.extract_tags(content, topK=20, withWeight=False) # content为string, topK选出20个关键字, withWeight: 每一个关键词同等重要
    • 使用gensim库
      • from gensim import corpora, models
      • dictinary = corpora.Dictionary(word_list) # 为每一个单词分配一个id, 并记录每一个单词的词频到dfs属性中
      • corpus = [dictionary.doc2bow(line) for line in word_list] # 得到词库, 形式是(token, id)
      • corpus.token2id以[token:id, ...]返回
      • # 将数据处理完之后, 才能使用models进行计算
      • lda = models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20) # corpus指定语料库, id2word指定字典, id在corpus中, num_toptics指定训练的主题数
      • lda.print_topic(1, 10) # 1为topic的id, 10为topic中关键字的个数
      • lda.print_topic(3, 10) # 3为返回的topic个数, 10为每一个topic中关键字的个数
      • 返回的形式是0.009*"文化" + 0.005*"恋情" + 0.004*"中" + 0.004*"撒" + 0.004*"节目"的列表, 数字为权重

机器学习贝叶斯(文本处理, 判断一句评论是否是侮辱性的[学会了这个, 那么垃圾邮箱, 广告的过滤也一样了, 文本处理贝叶斯的world])

与其他的泰坦尼克号遇难预测等案例不同, 文本处理需要自己在预处理时构建出数据表. 没有后者每一个提供表

不使用第三方库实现的思路

  • 获取文本数据

    • 格式: data0 = [['Hello', 'buddy'], ['You', 'silly']], labels = [1, 1]等
    • 二维list, 一个list表示合并在一起可以表示一句话
  • 过滤停用词得到去掉停用词的集合data

  • 对data进行去重(现在使用的算法不需要单词出现的数量, 如果换作其他算法则不一定), 获取data中所有的单词words, words的形式为list
    • 实现思路:

      • data = set(data): 转换为set达到去重的效果
      • data = list(data): 将data转为list, 因为需要单词的顺序
  • data0的每一个list元素的单词转为0和1, 返回一组向量, 0表示没有该单词, 1表示有该单词
  • def NBTrain函数使用贝叶斯进行训练
    • 根据labels先判断出bad言论数, 得出其概率
    • 缩小范围, 锁定到bad言论中, 计算出每一条bad言论的单词总数与所有bad言论的总数的比值
    • 锁定到not bad言论中, 计算出每一条not bad言论的单词总数与所有not bad言论的总数的比值
    • 返回三个向量
  • 根据根据贝叶斯公式, 根据输入的测试集向量, 通过贝叶斯公式与NBTrain出来的参数(该参数与贝叶斯公式非常相关)得出p0与p1, 比较大小进行分类借口

使用sklearn的native_bayes模块实现

  • 获得数据
  • 过滤掉停用词
  • 将每一个样本对应的单词以' '.jion合并, 因为之后将单词转为向量的对象需要这样的参数
  • 导入sklearn.features_extraction.text.CountVectorizier或者sklearn.features_extraction.text.TfidfVectorizier, 是两种将字符串中的单词转为向量的算法, 后者效果更好, 所以以他为例
    • tfidf = TfidVectorizier() # 有一个ngram_range可选参数, (1, 4)表示得到的feature为1个, 2个依次增加到3个, 3就是最终每一个句子的向量的长度
    • tfidf_fit = tfidf.fit_transform(texts) # texts的形式['I am myself', 'Do not say it', ...]
    • tfidf_fit.get_feature_names()返回单词list
    • tfidf_fit.toarray()返回转换后的向量
  • 现在得到了我们需要用于建模的数据表了(前面就是特征提取的操作, 是机器学习中最难的部分, 目的就是为了得到可以用于建模的数据表)
  • 将数据分成训练集和测试集
  • 导入native_bayes模块中的MultinomialNB类对象
    • clf = MultinomialNB()
    • clf.fit(X_train.values.tolist(), y_train.values.tolist()) # bayes坑的地方, 传入的必须是list, 内部不提供转换
  • 评估
    • clf.score(X_test.values.tolist(), y_test.values.tolist())

Python文本数据分析与处理的更多相关文章

  1. 利用Python进行数据分析——Ipython

    利用Python进行数据分析--Ipython 一.Ipython一些常用命令 1.TAB自动补全 2.变量+? 显示相关信息 3.函数名+??可以获取函数的代码 4.使用通配符* np.load? ...

  2. 基于Python的数据分析(2):字符串编码

    在上一篇文章<基于Python的数据分析(1):配置安装环境>中的第四个步骤中我们在python的启动步骤中强制要求加载sitecustomize.py文件并设置其默认编码为"u ...

  3. $《利用Python进行数据分析》学习笔记系列——IPython

    本文主要介绍IPython这样一个交互工具的基本用法. 1. 简介 IPython是<利用Python进行数据分析>一书中主要用到的Python开发环境,简单来说是对原生python交互环 ...

  4. 利用Python进行数据分析_Pandas_数据加载、存储与文件格式

    申明:本系列文章是自己在学习<利用Python进行数据分析>这本书的过程中,为了方便后期自己巩固知识而整理. 1 pandas读取文件的解析函数 read_csv 读取带分隔符的数据,默认 ...

  5. 今天整理了几个在使用python进行数据分析的常用小技巧、命令。

    提高Python数据分析速度的八个小技巧 01 使用Pandas Profiling预览数据 这个神器我们在之前的文章中就详细讲过,使用Pandas Profiling可以在进行数据分析之前对数据进行 ...

  6. 利用python进行数据分析PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书

    点击获取提取码:hi2j 内容简介 [名人推荐] "科学计算和数据分析社区已经等待这本书很多年了:大量具体的实践建议,以及大量综合应用方法.本书在未来几年里肯定会成为Python领域中技术计 ...

  7. "利用python进行数据分析"学习记录01

    "利用python进行数据分析"学习记录 --day01 08/02 与书相关的资料在 http://github.com/wesm/pydata-book pandas 的2名字 ...

  8. 算是休息了这么长时间吧!准备学习下python文本处理了,哪位大大有好书推荐的说下!

    算是休息了这么长时间吧!准备学习下python文本处理了,哪位大大有好书推荐的说下!

  9. 利用Python进行数据分析(12) pandas基础: 数据合并

    pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法c ...

随机推荐

  1. 将Winform程序及dll打包成可执行的exe

    使用场景 通常开发的Winform程序,引用了其他类库后,在输出目录下都会产生很多DLL文件,exe执行时必须依赖这些DLL.想要Winform程序只有一个可执行exe文件,又不想打包成安装包,就可以 ...

  2. 【2】循序渐进学 Zabbix:安装配置 Zabbix Server 服务端

    上一篇 [1]循序渐进学 Zabbix :初识与基础依赖环境搭建( LNMP ) 安装 Zabbix Server 上篇我们在 192.168.200.101 上面安装了 Zabbix 所依赖的 LN ...

  3. gRPC官方文档(概览)

    文章来自gRPC 官方文档中文版 概览 开始 欢迎进入 gRPC 的开发文档,gRPC 一开始由 google 开发,是一款语言中立.平台中立.开源的远程过程调用(RPC)系统. 本文档通过快速概述和 ...

  4. [LeetCode] 92. Reverse Linked List II_Medium tag: Linked List

    Reverse a linked list from position m to n. Do it in one-pass. Note: 1 ≤ m ≤ n ≤ length of list. Exa ...

  5. 在eclipse中使用hadoop插件

    我的配置环境看我的上篇博文. 配置过程: (1)把插件放到eclipse/plugins目录下.(我的版本上一篇也有) )重启eclipse,配置Hadoop installation directo ...

  6. 【转】PHP微信上传永久图片素材

    $TOKEN="XXXX"; $file = "D:\www\weixin\game.jpg"; $data = array( 'media'=> new ...

  7. (字符转化)UTF-8和GBK有什么区别?

    GBK包含全部中文字符:UTF-8则包含全世界所有国家需要用到的字符. GBK编码:是指中国的中文字符,其它它包含了简体中文与繁体中文字符,另外还有一种字符“gb2312”,这种字符仅能存储简体中文字 ...

  8. 并查集【洛谷P1197】 [JSOI2008]星球大战

    P1197 [JSOI2008]星球大战 题目描述 很久以前,在一个遥远的星系,一个黑暗的帝国靠着它的超级武器统治着整个星系. 某一天,凭着一个偶然的机遇,一支反抗军摧毁了帝国的超级武器,并攻下了星系 ...

  9. PAT天梯赛L1-020 帅到没朋友

    题目链接:点击打开链接 当芸芸众生忙着在朋友圈中发照片的时候,总有一些人因为太帅而没有朋友.本题就要求你找出那些帅到没有朋友的人. 输入格式: 输入第一行给出一个正整数N(<=100),是已知朋 ...

  10. 解决dubbo注册zookepper服务IP乱入问题的三种方式

    最近做一个项目引入了dubbo+zookepper的分布式服务治理框架.在应用的发布的时候出现一个怪问题.zookepper服务是起在开发服务器192.168.23.180上.本机起应用服务提供者注册 ...