NLTK实现文本切分

之前已经了解了使用nltk库，将文本作为参数传入相应函数进行切分的方法，下面看看使用正则表达式如何来进行文本切分。

1. 使用正则表达式切分

1.1 通过RegexpTokenizer 进行切分。先导入 RegexpTokenizer 模块，然后构建一个与文本中的标识符相匹配的正则表达式。将此正则表达式作为参数传入RegexpTokenizer ，同时实例化一个对象，使用此对象对文本进行切分。

from nltk.tokenize import RegexpTokenizer

# RegexpTokenizer() 参数是将要匹配的字符串的正则表达式，返回值是所有匹配到的字符串组成的列表

tokenizer = RegexpTokenizer("\w+")

print(tokenizer.tokenize("Don't hesitate to ask questions!"))

运行结果：

['Don', 't', 'hesitate', 'to', 'ask', 'questions']

1.2 使用 regexp_tokenize 切分。

from nltk.tokenize import regexp_tokenize

sentence = "My name is QWE, and I'm 22 years old."

print(regexp_tokenize(sentence, pattern= '\w+|\$[\d\.]+|\S+'))

运行结果：

['My', 'name', 'is', 'QWE', ',', 'and', 'I', "'m", '', 'years', 'old', '.']

1.3 以空格为分界点进行切分

from nltk.tokenize import RegexpTokenizer

tok = RegexpTokenizer('\s+', gaps= True)

print(tok.tokenize("Don't hesitate to ask questions"))

1.4 筛选以大写字母开头的单词

from nltk.tokenize import RegexpTokenizer

sentence = "My name is QWE, and I'm 22 years old.I'm from China"

capt = RegexpTokenizer('[A-Z]\w+')

print(capt.tokenize(sentence))

结果：

['My', 'QWE', 'China']

（看起来都像是直接用正则匹配的。。）

1.5 使用WhitespaceTokenizer可以通过返回元组形式的序列来进行切分，该序列为标识符在语句中的位置和偏移量。

from nltk.tokenize import WhitespaceTokenizer

sentence = " She secured 90.56 % in class X \n. She is a meritorious student\n"

print(list(WhitespaceTokenizer().span_tokenize(sentence)))

结果：

[(1, 4), (5, 12), (13, 18), (19, 20), (21, 23), (24, 29), (30, 31), (33, 34), (35, 38), (39, 41), (42, 43), (44, 55), (56, 63)]

NLTK实现文本切分的更多相关文章

【NLP】Python NLTK获取文本语料和词汇资源
Python NLTK 获取文本语料和词汇资源作者:白宁超 2016年11月7日13:15:24 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集 ...
使用 NLTK 对文本进行清洗，索引工具
使用 NLTK 对文本进行清洗,索引工具 EN_WHITELIST = '0123456789abcdefghijklmnopqrstuvwxyz ' # space is included in w ...
nltk处理文本
nltk(Natural Language Toolkit)是处理文本的利器. 安装 pip install nltk 进入python命令行,键入nltk.download()可以下载nltk需要的 ...
【NLP】干货！Python NLTK结合stanford NLP工具包进行文本处理
干货!详述Python NLTK下如何使用stanford NLP工具包作者:白宁超 2016年11月6日19:28:43 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的 ...
【NLP】Python NLTK处理原始文本
Python NLTK 处理原始文本作者:白宁超 2016年11月8日22:45:44 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开 ...
[转]【NLP】干货！Python NLTK结合stanford NLP工具包进行文本处理阅读目录
[NLP]干货!Python NLTK结合stanford NLP工具包进行文本处理原贴: https://www.cnblogs.com/baiboy/p/nltk1.html 阅读目录目 ...
机器学习之路： python nltk 文本特征提取
git: https://github.com/linyi0604/MachineLearning 分别使用词袋法和nltk自然预言处理包提供的文本特征提取 from sklearn.feature_ ...
使用Python中的NLTK和spaCy删除停用词与文本标准化
概述了解如何在Python中删除停用词与文本标准化,这些是自然语言处理的基本技术探索不同的方法来删除停用词,以及讨论文本标准化技术,如词干化(stemming)和词形还原(lemmatizatio ...
nltk的安装和简单使用
使用python进行自然语言处理,有一些第三方库供大家使用: ·NLTK(Python自然语言工具包)用于诸如标记化.词形还原.词干化.解析.POS标注等任务.该库具有几乎所有NLP任务的工具. ·S ...

随机推荐

关于Python中的错误与异常，你是否了解的够仔细？
每次版本结束都描述这着同样的错误,相似的问题,但始终没见解决.所以今天,我就来总结下Python的错误与异常! 异常与错误错误语法错误可以通过IDE或者解释器给出提示的错误 opentxt('a ...
本科阶段就挑战自动驾驶开发？华为云ModelArts帮你轻松实现！
欢迎添加华为云小助手微信(微信号:HWCloud002 或 HWCloud003),输入关键字"加群",加入华为云线上技术讨论群:输入关键字"最新活动",获取华 ...
从零开始入门 K8s | 手把手带你理解 etcd
作者 | 曾凡松(逐灵) 阿里云容器平台高级技术专家本文整理自<CNCF x Alibaba 云原生技术公开课>第 16 讲. 导读:etcd 是用于共享配置和服务发现的分布式.一致性的 ...
go基础之服务退出问题
最近学习公司微服务的代码,看到每一个微服务的main函数都阻塞在那里,然后里面起的goroutine一直在哪里运行. package main import( "fmt" &quo ...
GeoTools介绍、环境安装、读取shp文件并显示
GeoTools是一个开放源代码(LGPL)Java代码库,它提供了符合标准的方法来处理地理空间数据,例如实现地理信息系统(GIS).GeoTools库实现了开放地理空间联盟(OGC)规范. Geot ...
2019牛客全国多校第八场A题 All-one Matrices（单调栈）
题意:让你找最大不可扩展全1子矩阵的数量: 题解:考虑枚举每一行为全1子矩阵的的底,然后从左到右枚举:up[i][j]:表示(i,j)这个位置向上可扩展多少,同时还有记录每个位置(i,j)向左最多可扩 ...
Round-number
Description Most of the time when rounding a given number, it is customary to round to some multiple ...
MDS 多活配置
CephFS 介绍及使用经验分享阅读 1179 收藏 2 2019-01-14 原文链接:www.jianshu.com WebRTC SFU中发送数据包的丢失反馈juejin.im 目录 Ceph ...
[vue]数据来源
1.组件data函数return的数据作用域是组件本身可以在模板template及计算属性computed和方法methods中使用 2.父传子,props数据来自父级:可以是写死的,或者是来自 ...
【程序人生】一个IT人的立功，立言，立德三不朽
最近几个月很忙,忙着当奶爸,忙着做加班狗,忙着补裤裆学技术……以至于快忘了要思考人生了! 古人立志穷极一生追求“立德”,“立功”,“立言”,以求不朽,为万世所景仰,为后人所传颂,实现人生的意义.立德者 ...

NLTK实现文本切分

NLTK实现文本切分的更多相关文章

随机推荐

热门专题