自然语言处理 -->计算机数据 ,计算机可以处理vector,matrix 向量矩阵。

NLTK 自然语言处理库,自带语料,词性分析,分类,分词等功能。

简单版的wrapper,比如textblob。

import nltk
nltk.download() #可以下载语料库等。
#自带的语料库
from nltk.corpus import brown
brown.categories()
len(brown.sents()) # 多少句话
len(brown.words()) # 多少个单词

一 简单的文本预处理流水线

1.分词 Tokenize    长句子分成有意义的小部件。

sentence = "hello word"
nltk.word_tokenize(sentence)

nltk的分词对于中文是无效的,因为英文是词语按照空格键分开的,而中文单个字分开是无效的,比如今天天气不错,要分成 今天/天气/不错/!

中文有两种 1 启发式 Heuristic ,就是比如最长词,字典作为词库,有今天,没有今天天这么长的,所以今天为一个词。

     2 机器学习/统计方法:HMM,CRF。(coreNLP ,斯坦福)

      中文分词 结巴。

分完词之后再调用nltk。

社交网络语音的分词,会员表情符号,url,#话题,@某人 需要正则表达式来预处理。

2 nltk.pos_tag(text)  #text为分词完的list,part of speech 在这句话中的部分,adj adv,det(the,a这种)

3 stemming 词干提取 如walking 到walk

lemmatize(postag)词形归一 #会根据词性,把is am are 归一成be went 归一成go 这种

4  stop words(停止词),   he,the这些没有意义的词,直接删掉。

from nltk.corpus import stopwords
[word for word in word_list if word not in stopwords.words('english')]

插入图片1 流程

插入图片2 life is like a box of chocolate

二  向量化

nltk在nlp的经典应用1情感分析 2 文本相似度 3 文本分类(用的最多,如新闻分类)

1.情感分析:

  最简单的 sentiment dictionary

字典中单词的正负性,如 like 1分 good 2分 bad -2 分 terrible -3 分。  一句话所有的词打分,相加看正负。

sentimen_dictionary = {}
for line in open('*.txt'):
  word,score = line.split('\t')
  sentiment_dictionary[word] = int(score)
total_score = sum(sentiment_dictionary.get(word,0) for word in words) #字典中有则score,没有的Word则0分。
#有的人骂的比较黑装粉,需要配上ML
from nltk.classify import NaiveBayesClassifier
# 随手的简单训练集
s1 = 'this is a good book'
s2 = 'this is a awesome book'
s3 = 'this is a bad book'
s4 = 'this is a terrible book'
def preprocess(s):
 #句子处理,这里是用split(),把每个单词都分开,没有用到tokenize,因为例子比较简单。
return {word : True for word in s.lower().split()}        
#{fname,fval} 这里用true是最简单的存储形式,fval 每个文本单词对应的值,高级的可以用word2vec来得到fval。
#训练 this is terrible good awesome bad book 这样一次单词长列(1,1,0,1,0,0,1)如s1对应的向量 training_data = [ [preprocess(s1),'pos'],
[preprocess(s1),'pos'],
[preprocess(s1),'neg'],
[preprocess(s1),'neg']]
model = NaiveBayesClassifier.train(training_data)
print(model.classify(preprocess('this is a good book')))  

2.文本相似性

 把文本变成相同长度的向量,通过余弦相似度求相似性。

  nltk中FreqDist统计文字出现的频率

3.文本分类

    TF-IDF

    TF,Term Frequency,一个term在一个文档中出现的有多频繁。

    TF(t) = t出现在文档中的次数/文档中的term总数

    IDF :Inverse Document Frequency,衡量一个term有多重要,如 is the 这些不重要

    把罕见的权值农高。

    IDF(t) = log e (文档总数/含有t的文档总数)

    TF-IDF = TF×IDF

from nltk.text import TextCollection
# 首首先, 把所有的文文档放到TextCollection类中。
# 这个类会自自动帮你断句句, 做统计, 做计算
corpus = TextCollection(['this is sentence one',
'this is sentence two',
'this is sentence three'])
# 直接就能算出tfidf
# (term: 一一句句话中的某个term, text: 这句句话)
print(corpus.tf_idf('this', 'this is sentence four'))
# 0.444342
# 同理理, 怎么得到一一个标准大大小小的vector来表示所有的句句子子?
# 对于每个新句句子子
new_sentence = 'this is sentence five'
# 遍历一一遍所有的vocabulary中的词:
for word in standard_vocab:
print(corpus.tf_idf(word, new_sentence))
# 我们会得到一一个巨⻓长(=所有vocab⻓长度)的向量量

   

Python文本处理nltk基础的更多相关文章

  1. 使用Python中的NLTK和spaCy删除停用词与文本标准化

    概述 了解如何在Python中删除停用词与文本标准化,这些是自然语言处理的基本技术 探索不同的方法来删除停用词,以及讨论文本标准化技术,如词干化(stemming)和词形还原(lemmatizatio ...

  2. 《NLTK基础教程》译者序

    购买<NLTK基础教程> 说来也凑巧,在我签下这本书的翻译合同时,这个世界好像还不知道AlphaGo的存在.而在我完成这本书的翻译之时,Master已经对人类顶级高手连胜60局了.至少从媒 ...

  3. python 3.x 爬虫基础---常用第三方库(requests,BeautifulSoup4,selenium,lxml )

    python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解 python 3.x 爬虫基础---常用第三方库 ...

  4. Python运维开发基础08-文件基础【转】

    一,文件的其他打开模式 "+"表示可以同时读写某个文件: r+,可读写文件(可读:可写:可追加) w+,写读(不常用) a+,同a(不常用 "U"表示在读取时, ...

  5. Python运维开发基础04-语法基础【转】

    上节作业回顾(讲解+温习90分钟) #!/usr/bin/env python3 # -*- coding:utf-8 -*- # author:Mr.chen # 仅用列表+循环实现“简单的购物车程 ...

  6. python 3.x 爬虫基础---Requersts,BeautifulSoup4(bs4)

    python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解 python 3.x 爬虫基础---Requer ...

  7. Python服务器开发 -- 网络基础

    Python服务器开发 -- 网络基础   网络由下往上分为物理层.数据链路层.网络层.传输层.会话层.表示层和应用层.HTTP是高层协议,而TCP/IP是个协议集,包过许多的子协议.... 网络由下 ...

  8. python 文本相似度计算

    参考:python文本相似度计算 原始语料格式:一个文件,一篇文章. #!/usr/bin/env python # -*- coding: UTF-8 -*- import jieba from g ...

  9. 算是休息了这么长时间吧!准备学习下python文本处理了,哪位大大有好书推荐的说下!

    算是休息了这么长时间吧!准备学习下python文本处理了,哪位大大有好书推荐的说下!

随机推荐

  1. JavaWeb_day06_Filter过滤器

    本文为博主辛苦总结,希望自己以后返回来看的时候理解更深刻,也希望可以起到帮助初学者的作用. 转载请注明 出自 : luogg的博客园 谢谢配合! day06 request 对象常用方法 respon ...

  2. vcredist_x64.exe vcredist_x86.exe 静默安装方法收集

    vcredist_x64.exe /install /quiet /norestart 更多方法参考如下: http://www.cnblogs.com/lidabo/archive/2013/01/ ...

  3. PHP变量

    变量的声明 PHP变量声明必须是$(美元符号)+变量名进行命名,同时在=(赋值操作符)后进行赋值 声明后的变量不是仅可以在一个<?php 这里是php代码 ?>使用,它还可以在当前页面所有 ...

  4. safari cookie设置中文失败

    最近用H5进行手机端开发,由于是window操作系统,为了方便开发和调试,直接在chrome浏览器上进行测试,然后在android机上进行手机端测试,当功能基本完工后,原来在android上运行正常的 ...

  5. 浅谈Hybrid技术的设计与实现

    前言 浅谈Hybrid技术的设计与实现 浅谈Hybrid技术的设计与实现第二弹 浅谈Hybrid技术的设计与实现第三弹——落地篇 随着移动浪潮的兴起,各种APP层出不穷,极速的业务扩展提升了团队对开发 ...

  6. 正确制作一个iframe,认识iframe

    iframe作为一个网站之间交互的桥梁,受到很多站长的喜爱,但是又有不安全的因素存在,所以正确填写属性是很重要的. <iframe name="my_iframe" heig ...

  7. 手把手教你用FineBI做数据可视化

    前些日子公司引进了帆软商业智能FineBI,在接受了简单的培训后,发现这款商业智能软件用作可视分析只用一个词形容的话,那就是“轻盈灵动”!界面简洁.操作流畅,几个步骤就可以创建分析,获得想要的效果.此 ...

  8. iOS 字典或者数组和JSON串的转换

    在和服务器交互过程中,会iOS 字典或者数组和JSON串的转换,具体互换如下: // 将字典或者数组转化为JSON串 + (NSData *)toJSONData:(id)theData { NSEr ...

  9. 在SharePoint 2013 之中使用JS从Add-in程序中读取用户配置文件的属性

    经过无数次的实验,只有这个程序可以运行正常 ,代码贴出来纯的JSOM,在我的实验环境老是返回未知错误,为了这一个简单的任务,我已经搞了2天了,不过终于搞出来了,使用各种方法后,还有使用代码. func ...

  10. Stimulsoft入门视频

    .NET框架下最全面的报表解决方案,支持多种报表导出格式,拥有简单且强大的报表引擎.本系列教程适合Stimulsoft Reports上手入门. 001     Stimulsoft Reports. ...