Python NLTK 处理原始文本

2016年11月8日22:45:44

摘要：NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包，其收集的大量公开数据集、模型上提供了全面、易用的接口，涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项 NLP 领域的功能。本文主要介绍：1）怎样编写程序访问本地和网络上的文件，从而获得无限的语言材料？2）如何把文档分割成单独的单词和标点符号，并进行文本语料上的分析？3）怎样编写程序产生格式化输出，并把结果保存在文件中？关于Python基础知识可以参看本人的【Python五篇慢慢弹】系列文章（本文原创编著，转载注明出处:Python NLTK处理原始文本）

1 从网络和硬盘访问文本（在线获取伤寒杂病论）

python网络访问程序：

>>> from __future__ import division

>>> import nltk,re,pprint

>>> from urllib.request import urlopen

>>> url=r'http://www.gutenberg.org/files/24272/24272-0.txt'

>>> raw=urlopen(url).read()

>>> raw = raw.decode('utf-8')

>>> len(raw)

70306

>>> raw[2000:2500]

运行结果：

对其中文分词：

>>> from nltk.tokenize import StanfordSegmenter

>>> segmenter = StanfordSegmenter(

    path_to_jar=r"E:\tools\stanfordNLTK\jar\stanford-segmenter.jar",

    path_to_slf4j=r"E:\tools\stanfordNLTK\jar\slf4j-api.jar",

    path_to_sihan_corpora_dict=r"E:\tools\stanfordNLTK\jar\data/",

    path_to_model=r"E:\tools\stanfordNLTK\jar\data\pku.gz",

    path_to_dict=r"E:\tools\stanfordNLTK\jar\data\dict-chris6.ser.gz"

)

>>> result = segmenter.segment(raw)

>>> result[1000:2500]

分词结果：

2 在线获取处理HTML文本(红楼梦)

在线获取html文本资料：

>>> import re,nltk

>>> from urllib.request import urlopen

>>> url='http://www.gutenberg.org/cache/epub/24264/pg24264-images.html'

>>> html=urlopen(url).read()

>>> html=html.decode('utf-8')

>>> html[5000:5500]

运行结果：

3 处理RSS订阅

>>> import feedparser #feedparser需要在python库中下载

>>> llog=feedparser.parse(url)

4 读取本地文件:strip()方法删除输入行结尾的换行符

方法一：

>>> f=open(r"E:\dict\q0.txt","r")

>>> for line in f:

	print(line.strip())

方法二：

>>> with open(r"C:\Users\cuitbnc\Desktop\dqdg.txt","r+") as f:

    str=f.read()

方法三：

>>> import nltk

>>> path=nltk.data.find(r'C:\Users\cuitbnc\Desktop\dqdg.txt')

>>> raw=open(path,'rU').read()

>>> len(raw)

673167

>>>

PDF或者MSWord以及其他二进制提取文本，利用第三方函数库pypdf和pywin32

>>> raw=open(r"E:\dict\q0.txt","r").read()

>>> tokens=nltk.word_tokenize(raw)

>>> words=[w for w in tokens]

>>> vocab=sorted(set(words))

>>> vocab

5 字符串：最底层的文本处理

有用的字符串方法：

s.find(t) 字符串s中包含t的第一个索引s.rfind(t) 字符串s中包含t的最后一个索引
s.index(t) 与s.find(t)类似
s.rindex(t) 与s.rfind(t)类似
s.join(text)
s.split(t) 字符串分割
s.splitlines()
s.lower()
s.upper()
s.titlecase() s首字母大写
s.strip() 返回一个没有首尾空白字符的s的复制
s.replace(t,u) 用u替换s中的t

链表和字符串的差异：字符串和链表都是一种序列，可以通过索引抽取他们一部分，可以切片，可以合并。但是，链表和字符串不能连接

6 使用Unicode进行文字处理

解码：文件中的文本都有特定的编码，需要一些机制将文本翻译成Unicode的过程就是解码。编码:将Uniocde写入一个文件或者终端，首先需要将Unicode转化为合适的编码，这个过程就是编码

中文解码问题

>>> raw=open(r"E:\dict\text.txt","r").read()

Traceback (most recent call last):

  File "<pyshell#18>", line 1, in <module>

    raw=open(r"E:\dict\text.txt","r").read()

UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 16: illegal multibyte sequence

>>> import codecs

>>> f=codecs.open(r"E:\dict\text.txt",'r',encoding="utf-8").read()

ord()查找字符的整数序列

>>> ord('a')

97

>>> ord('f')

102

7 使用正则表达式检测词组搭配

import re 导入re函数库

re.search('ed$',w)查询w字符串中是都ed结尾匹配 [w for w in wordlist if re,search('ed$',w)]

通配符“.”可以用来匹配任何单个字符。例如：有一个8个字母组成的字谜，j是第三个字母，t的第六个字母，每个空白单元格用句点隔开.(^字符串开始，$字符串结束)

[w for w in wordlist if re.search('^..j..t..$',w)]

计算文本中词出现次数 sum(w for w in text if re.search('^e-?mail$',w))

搜索数字

[w for w in wordlist if re.search('^[0-9]+\.[0-9]+$',w)]

[w for w in wordlist if re.search('^[0-9]{4}$',w)]

python正则表达式基本元字符

. 通配符，匹配所有字符
^abc 匹配以abc开始的字符串
abc$ 匹配以abc结尾的字符串
[abc] 匹配字符集合
[A-Z0-9] 匹配字符范围
ed|ing|s 匹配指定的字符串，诸如ed或者ing或者s
* 前面项目0个或者多个，如a*/[a-z]* (也叫Kleene闭包)
+ 前面项目1个或者多个，如a+、[a-z]+
? 前面项目0个或者1个，如a？、[a-z]?
{n} 重复n次
{n,} 至少重复n次
{,n} 重复不多于n次
{m,n} 至少重复m次不多于n次
a(b|c)+ 括号表示操作符的范围
正则表达式符号：
\b 词边界
\d 任何数字等于[0-9]
\D 任何非数字等于[^0-9]
\s 任何空白字符[\t\n\r\f\v]
\S 任何非空白字符[^\t\n\r\f\v]
\w 任何字母[A-Za-z0-9]
\W 任何非字母[^A-Za-z0-9]
\t 制表符
\n 换行符

指定条件查询分析：

>>> f=codecs.open(r"E:\dict\q0.txt",'r').read()

>>> import re

>>> re.findall(r"大秦",f)

['大秦']

>>> re.findall(r"庞涓",f)

['庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓', '庞涓']

>>> len(re.findall(r"庞涓",f))

33

>>>

【推荐】

【NLP】Python NLTK处理原始文本的更多相关文章

【NLP】干货！Python NLTK结合stanford NLP工具包进行文本处理
干货!详述Python NLTK下如何使用stanford NLP工具包作者:白宁超 2016年11月6日19:28:43 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的 ...
【NLP】Python NLTK获取文本语料和词汇资源
Python NLTK 获取文本语料和词汇资源作者:白宁超 2016年11月7日13:15:24 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集 ...
[转]【NLP】干货！Python NLTK结合stanford NLP工具包进行文本处理阅读目录
[NLP]干货!Python NLTK结合stanford NLP工具包进行文本处理原贴: https://www.cnblogs.com/baiboy/p/nltk1.html 阅读目录目 ...
【NLP】Python NLTK 走进大秦帝国
Python NLTK 走进大秦帝国作者:白宁超 2016年10月17日18:54:10 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公 ...
Python NLTK 自然语言处理入门与例程(转)
转 https://blog.csdn.net/hzp666/article/details/79373720 Python NLTK 自然语言处理入门与例程在这篇文章中,我们将基于 Pyt ...
Python网络01 原始Python服务器
原文:Python网络01 原始Python服务器作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! 之前我的Python教程中有人 ...
重磅︱R+NLP：text2vec包——New 文本分析生态系统 No.1（一,简介）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 词向量的表示主流的有两种方式,一种当然是耳熟能 ...
[Python] 糗事百科文本数据的抓取
[Python] 糗事百科文本数据的抓取源码 https://github.com/YouXianMing/QiuShiBaiKeText import sqlite3 import time im ...
Python+selenium之获取文本值和下拉框选择数据
Python+selenium之获取文本值和下拉框选择数据一.结合实例进行描述 1. 实例如下所示: #新增标签操作 def func_labels(self): self.driver.find_ ...

随机推荐

【AR实验室】ARToolKit之制作自己的Marker/NFT
0x00 - 前言看过example后,就会想自己动动手,这里改改那里修修.我们先试着添加自己喜欢的marker/nft进行识别. 比如我做了一个法拉利的marker: 还有网上找了一个法拉利log ...
关于解决python线上问题的几种有效技术
工作后好久没上博客园了,虽然不是很忙,但也没学生时代闲了.今天上博客园,发现好多的文章都是年终总结,想想是不是自己也应该总结下,不过现在还没想好,等想好了再写吧.今天写写自己在工作后用到的技术干货,争 ...
android通过webview调起支付宝app支付
webview在加载网页的时候会默认调起手机自带的浏览器加载网页,用户体验不好.但当用户设置浏览器客户端(setWebViewClient)设置这样的监听事件之后,当请求url的时候就不会打开手机自带 ...
PHP中遍历XML之SimpleXML
简单来讲述一些XML吧,XML是可扩展标记语言,是一种用于标记电子文件使其具有结构性的标记语言.XML是当今用于传输数据的两大工具之一,另外一个是json. 我们在PHP中使用XML也是用来传输数据, ...
DOM的小练习，两个表格之间数据的移动
本次讲的是两个表格之间数据的移动,左边的表格移动到右边,并且左边表格移动内容消失. <head> <meta http-equiv="Content-Type" ...
[Android]使用Dagger 2进行依赖注入 - Producers（翻译）
以下内容为原创,欢迎转载,转载请注明来自天天博客:http://www.cnblogs.com/tiantianbyconan/p/6234811.html 使用Dagger 2进行依赖注入 - P ...
npm源切换
版权声明:欢迎转载,请附加转载来源:一路博客(http://www.16boke.com) 目录(?)[+] 安装使用列出可选的源切换增加源删除源测试速度许可项目主页我们介绍 ...
Java 教程整理：基础、项目全都有
Java 在编程语言排行榜中一直位列前排,可知 Java 语言的受欢迎程度了. 网上有很多 Java 教程,无论是基础入门还是开发小项目的教程都比比皆是,可是系统的很少,对于Java 学习者来说找到系 ...
linux 如何对文件解压或打包压缩
tar命令用与对文件打包压缩或解压,格式: tar [选项] [文件] 打包并压缩文件: tar -czvf 压缩包名 .tar.gz 解压并展开压缩包: tar -xzvf 压缩包名 .tar. ...
博客已经迁移至 http://barretlee.com/entry/，时而同步分享到这里
博客园是一个十分好的写作平台,不过个人比较喜欢倒腾,所以将文章都做了搬迁. 博客已经迁移至 http://barretlee.com/entry/,感谢一直以来的关注和支持. 博客订阅地址: http ...

【NLP】Python NLTK处理原始文本