Python文本数据分析与处理(新闻摘要)

分词
  • 使用jieba分词, 注意lcut只接受字符串
过滤停用词
TF-IDF得到摘要信息或者使用LDA主题模型
  • TF-IDF有两种

    • jieba.analyse.extract_tags(content, topK=20, withWeight=False) # content为string, topK选出20个关键字, withWeight: 每一个关键词同等重要
    • 使用gensim库
      • from gensim import corpora, models
      • dictinary = corpora.Dictionary(word_list) # 为每一个单词分配一个id, 并记录每一个单词的词频到dfs属性中
      • corpus = [dictionary.doc2bow(line) for line in word_list] # 得到词库, 形式是(token, id)
      • corpus.token2id以[token:id, ...]返回
      • # 将数据处理完之后, 才能使用models进行计算
      • lda = models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20) # corpus指定语料库, id2word指定字典, id在corpus中, num_toptics指定训练的主题数
      • lda.print_topic(1, 10) # 1为topic的id, 10为topic中关键字的个数
      • lda.print_topic(3, 10) # 3为返回的topic个数, 10为每一个topic中关键字的个数
      • 返回的形式是0.009*"文化" + 0.005*"恋情" + 0.004*"中" + 0.004*"撒" + 0.004*"节目"的列表, 数字为权重

机器学习贝叶斯(文本处理, 判断一句评论是否是侮辱性的[学会了这个, 那么垃圾邮箱, 广告的过滤也一样了, 文本处理贝叶斯的world])

与其他的泰坦尼克号遇难预测等案例不同, 文本处理需要自己在预处理时构建出数据表. 没有后者每一个提供表

不使用第三方库实现的思路

  • 获取文本数据

    • 格式: data0 = [['Hello', 'buddy'], ['You', 'silly']], labels = [1, 1]等
    • 二维list, 一个list表示合并在一起可以表示一句话
  • 过滤停用词得到去掉停用词的集合data

  • 对data进行去重(现在使用的算法不需要单词出现的数量, 如果换作其他算法则不一定), 获取data中所有的单词words, words的形式为list
    • 实现思路:

      • data = set(data): 转换为set达到去重的效果
      • data = list(data): 将data转为list, 因为需要单词的顺序
  • data0的每一个list元素的单词转为0和1, 返回一组向量, 0表示没有该单词, 1表示有该单词
  • def NBTrain函数使用贝叶斯进行训练
    • 根据labels先判断出bad言论数, 得出其概率
    • 缩小范围, 锁定到bad言论中, 计算出每一条bad言论的单词总数与所有bad言论的总数的比值
    • 锁定到not bad言论中, 计算出每一条not bad言论的单词总数与所有not bad言论的总数的比值
    • 返回三个向量
  • 根据根据贝叶斯公式, 根据输入的测试集向量, 通过贝叶斯公式与NBTrain出来的参数(该参数与贝叶斯公式非常相关)得出p0与p1, 比较大小进行分类借口

使用sklearn的native_bayes模块实现

  • 获得数据
  • 过滤掉停用词
  • 将每一个样本对应的单词以' '.jion合并, 因为之后将单词转为向量的对象需要这样的参数
  • 导入sklearn.features_extraction.text.CountVectorizier或者sklearn.features_extraction.text.TfidfVectorizier, 是两种将字符串中的单词转为向量的算法, 后者效果更好, 所以以他为例
    • tfidf = TfidVectorizier() # 有一个ngram_range可选参数, (1, 4)表示得到的feature为1个, 2个依次增加到3个, 3就是最终每一个句子的向量的长度
    • tfidf_fit = tfidf.fit_transform(texts) # texts的形式['I am myself', 'Do not say it', ...]
    • tfidf_fit.get_feature_names()返回单词list
    • tfidf_fit.toarray()返回转换后的向量
  • 现在得到了我们需要用于建模的数据表了(前面就是特征提取的操作, 是机器学习中最难的部分, 目的就是为了得到可以用于建模的数据表)
  • 将数据分成训练集和测试集
  • 导入native_bayes模块中的MultinomialNB类对象
    • clf = MultinomialNB()
    • clf.fit(X_train.values.tolist(), y_train.values.tolist()) # bayes坑的地方, 传入的必须是list, 内部不提供转换
  • 评估
    • clf.score(X_test.values.tolist(), y_test.values.tolist())

Python文本数据分析与处理的更多相关文章

  1. 利用Python进行数据分析——Ipython

    利用Python进行数据分析--Ipython 一.Ipython一些常用命令 1.TAB自动补全 2.变量+? 显示相关信息 3.函数名+??可以获取函数的代码 4.使用通配符* np.load? ...

  2. 基于Python的数据分析(2):字符串编码

    在上一篇文章<基于Python的数据分析(1):配置安装环境>中的第四个步骤中我们在python的启动步骤中强制要求加载sitecustomize.py文件并设置其默认编码为"u ...

  3. $《利用Python进行数据分析》学习笔记系列——IPython

    本文主要介绍IPython这样一个交互工具的基本用法. 1. 简介 IPython是<利用Python进行数据分析>一书中主要用到的Python开发环境,简单来说是对原生python交互环 ...

  4. 利用Python进行数据分析_Pandas_数据加载、存储与文件格式

    申明:本系列文章是自己在学习<利用Python进行数据分析>这本书的过程中,为了方便后期自己巩固知识而整理. 1 pandas读取文件的解析函数 read_csv 读取带分隔符的数据,默认 ...

  5. 今天整理了几个在使用python进行数据分析的常用小技巧、命令。

    提高Python数据分析速度的八个小技巧 01 使用Pandas Profiling预览数据 这个神器我们在之前的文章中就详细讲过,使用Pandas Profiling可以在进行数据分析之前对数据进行 ...

  6. 利用python进行数据分析PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书

    点击获取提取码:hi2j 内容简介 [名人推荐] "科学计算和数据分析社区已经等待这本书很多年了:大量具体的实践建议,以及大量综合应用方法.本书在未来几年里肯定会成为Python领域中技术计 ...

  7. "利用python进行数据分析"学习记录01

    "利用python进行数据分析"学习记录 --day01 08/02 与书相关的资料在 http://github.com/wesm/pydata-book pandas 的2名字 ...

  8. 算是休息了这么长时间吧!准备学习下python文本处理了,哪位大大有好书推荐的说下!

    算是休息了这么长时间吧!准备学习下python文本处理了,哪位大大有好书推荐的说下!

  9. 利用Python进行数据分析(12) pandas基础: 数据合并

    pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法c ...

随机推荐

  1. 理解CNN中的通道 channel

    在深度学习的算法学习中,都会提到 channels 这个概念.在一般的深度学习框架的 conv2d 中,如 tensorflow .mxnet ,channels 都是必填的一个参数. channel ...

  2. powershell 操作sharepoint命令集

    打开SharePoint 2013 Management Shell, and then run as administrator.执行如下命令 1. 添加wsp和安装Add-SPSolution - ...

  3. P2723 丑数 Humble Numbers

    题意:给你k个质数,定义丑数集合为k个质数随机(1--k)个相乘得到的数 求第n小的丑数 暴力...貌似不太可行,(把所有大量丑数求出来,sort   QAQ) 可以想到,对于第i个丑数f[i],它一 ...

  4. 洛谷 P1801 黑匣子_NOI导刊2010提高(06)

    题目描述 Black Box是一种原始的数据库.它可以储存一个整数数组,还有一个特别的变量i.最开始的时候Black Box是空的.而i等于0.这个Black Box要处理一串命令. 命令只有两种: ...

  5. Til the Cows Come Home (dijkstra算法)

    Bessie is out in the field and wants to get back to the barn to get as much sleep as possible before ...

  6. Python入门8文件处理

    文件处理文本模式name = input("请输入用户名:").strip()with open("a.txt","wt",encoding ...

  7. storm local logback

    <configuration> <property name="pattern" value="%d{yyyy-MM-dd HH:mm:ss.SSS} ...

  8. rpm命令相关

    ### .列出所有安装过的包 rpm -qa | grep sql ### .如何获得某个软件包的文件全名. rpm -q mysql ### .rpm包中的文件安装到那里 rpm -ql lrzsz ...

  9. STL-----c++标准模板

    一.排序和检索 1.sort(v.begin,v.end) 2.lower_bound(v.begin,v.end,x)

  10. linux面试题:删除一个目录下的所有文件,但保留一个指定文件

    面试题:删除一个目录下的所有文件,但保留一个指定文件 解答: 假设这个目录是/xx/,里面有file1,file2,file3..file10 十个文件 [root@oldboy xx]# touch ...