nltk处理文本

nltk(Natural Language Toolkit)是处理文本的利器。

安装

pip install nltk

进入python命令行，键入nltk.download()可以下载nltk需要的语料库等等。

分词

按词语分割（传入句子）

sentence='hello,world!'

tokens=nltk.word_tokenize(sentence)

tokens就是一个分割好的词表，如下：

['hello', ',', 'world', '!']

按句子分割（传入多个句子组成的文档）

text='This is a text. I want to split it.'

sens=nltk.sent_tokenize(text)

sens就是分割好的句子组成的list,如下：

['This is a text.', 'I want to split it.']

词性标注

tags = [nltk.pos_tag(tokens) for tokens in words]

[[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('text', 'NN'), ('for', 'IN'), ('test', 'NN'), ('.', '.')], [('And', 'CC'), ('I', 'PRP'), ('want', 'VBP'), ('to', 'TO'), ('learn', 'VB'), ('how', 'WRB'), ('to', 'TO'), ('use', 'VB'), ('nltk', 'NN'), ('.', '.')]]

附录：nltk的词性：

 CC      Coordinating conjunction 连接词

```
CD     Cardinal number  基数词
```

DT     Determiner  限定词（如this,that,these,those,such，不定限定词：no,some,any,each,every,enough,either,neither,all,both,half,several,many,much,(a) few,(a) little,other,another.

```
EX     Existential there 存在句
```
```
FW     Foreign word 外来词
```

IN     Preposition or subordinating conjunction 介词或从属连词

```
JJ     Adjective 形容词或序数词
```

JJR     Adjective, comparative 形容词比较级

JJS     Adjective, superlative 形容词最高级

```
LS     List item marker 列表标示
```
```
MD     Modal 情态助动词
```

NN     Noun, singular or mass 常用名词 单数形式

NNS     Noun, plural  常用名词 复数形式

NNP     Proper noun, singular  专有名词，单数形式

NNPS     Proper noun, plural  专有名词，复数形式

```
PDT     Predeterminer 前位限定词
```

POS     Possessive ending 所有格结束词

```
PRP     Personal pronoun 人称代词
```

PRP$     Possessive pronoun 所有格代名词

```
RB     Adverb 副词
```

RBR     Adverb, comparative 副词比较级

RBS     Adverb, superlative 副词最高级

```
RP     Particle 小品词
```
```
SYM     Symbol 符号
```

TO     to 作为介词或不定式格式

```
UH     Interjection 感叹词
```

VB     Verb, base form 动词基本形式

VBD     Verb, past tense 动词过去式

VBG     Verb, gerund or present participle 动名词和现在分词

VBN     Verb, past participle 过去分词

VBP     Verb, non-3rd person singular present 动词非第三人称单数

VBZ     Verb, 3rd person singular present 动词第三人称单数

WDT     Wh-determiner 限定词（如关系限定词：whose,which.疑问限定词：what,which,whose.）

WP      Wh-pronoun 代词（who whose which）

WP$     Possessive wh-pronoun 所有格代词

WRB     Wh-adverb   疑问代词（how where when）

提取关键词

如何对一段话提取关键词呢？主要思想就是先分词，再标词性。

# -*- coding=UTF-8 -*-

import nltk

from nltk.corpus import brown

from nltk.stem import SnowballStemmer

from nltk.corpus import stopwords

# This is our fast Part of Speech tagger

#############################################################################

brown_train = brown.tagged_sents(categories='news')

regexp_tagger = nltk.RegexpTagger(

    [(r'^-?[0-9]+(.[0-9]+)?$', 'CD'),

    (r'(-|:|;)$', ':'),

    (r'\'*$', 'MD'),

    (r'(The|the|A|a|An|an)$', 'AT'),

    (r'.*able$', 'JJ'),

    (r'^[A-Z].*$', 'NNP'),

    (r'.*ness$', 'NN'),

    (r'.*ly$', 'RB'),

    (r'.*s$', 'NNS'),

    (r'.*ing$', 'VBG'),

    (r'.*ed$', 'VBD'),

    (r'.*', 'NN')

])

unigram_tagger = nltk.UnigramTagger(brown_train, backoff=regexp_tagger)

bigram_tagger = nltk.BigramTagger(brown_train, backoff=unigram_tagger)

#############################################################################

# This is our semi-CFG; Extend it according to your own needs

#############################################################################

cfg = {}

cfg["NNP+NNP"] = "NNP"

cfg["NN+NN"] = "NNI"

cfg["NNI+NN"] = "NNI"

cfg["JJ+JJ"] = "JJ"

cfg["JJ+NN"] = "NNI"

#############################################################################

class NPExtractor(object):

    # Split the sentence into singlw words/tokens

    def tokenize_sentence(self, sentence):

        tokens = nltk.word_tokenize(sentence)

        #去除停用词,标点，数字,长度小于2的词

        tokens=[w.lower() for w in tokens if(w.isalpha())&(len(w)>1)]#使用tfid，不必去除停用词

        #词干提取

        stemmer=SnowballStemmer('english')

        tokens=[stemmer.stem(w) for w in tokens]

        return tokens

    # Normalize brown corpus' tags ("NN", "NN-PL", "NNS" > "NN")

    def normalize_tags(self, tagged):

        n_tagged = []

        for t in tagged:

            if t[1] == "NP-TL" or t[1] == "NP":

                n_tagged.append((t[0], "NNP"))

                continue

            if t[1].endswith("-TL"):

                n_tagged.append((t[0], t[1][:-3]))

                continue

            if t[1].endswith("S"):

                n_tagged.append((t[0], t[1][:-1]))

                continue

            n_tagged.append((t[0], t[1]))

        return n_tagged

    # Extract the main topics from the sentence

    def extract(self,sentence):

        tokens = self.tokenize_sentence(sentence)

        tags = self.normalize_tags(bigram_tagger.tag(tokens))

        merge = True

        while merge:

            merge = False

            for x in range(0, len(tags) - 1):

                t1 = tags[x]

                t2 = tags[x + 1]

                key = "%s+%s" % (t1[1], t2[1])

                value = cfg.get(key, '')

                if value:

                    merge = True

                    tags.pop(x)

                    tags.pop(x)

                    match = "%s %s" % (t1[0], t2[0])

                    pos = value

                    tags.insert(x, (match, pos))

                    break

        matches = []

        for t in tags:

            if t[1] == "NNP" or t[1] == "NNI" or t[1]=="NN":

                matches.append(t[0])

        return matches

利用这里的extract函数就可以提取文本的关键词。

更多参见nltk官方文档：nltk

nltk处理文本的更多相关文章

【NLP】Python NLTK获取文本语料和词汇资源
Python NLTK 获取文本语料和词汇资源作者:白宁超 2016年11月7日13:15:24 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集 ...
使用 NLTK 对文本进行清洗，索引工具
使用 NLTK 对文本进行清洗,索引工具 EN_WHITELIST = '0123456789abcdefghijklmnopqrstuvwxyz ' # space is included in w ...
NLTK实现文本切分
之前已经了解了使用nltk库,将文本作为参数传入相应函数进行切分的方法,下面看看使用正则表达式如何来进行文本切分. 1. 使用正则表达式切分 1.1 通过RegexpTokenizer 进行切分.先导 ...
【NLP】干货！Python NLTK结合stanford NLP工具包进行文本处理
干货!详述Python NLTK下如何使用stanford NLP工具包作者:白宁超 2016年11月6日19:28:43 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的 ...
【NLP】Python NLTK处理原始文本
Python NLTK 处理原始文本作者:白宁超 2016年11月8日22:45:44 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开 ...
[转]【NLP】干货！Python NLTK结合stanford NLP工具包进行文本处理阅读目录
[NLP]干货!Python NLTK结合stanford NLP工具包进行文本处理原贴: https://www.cnblogs.com/baiboy/p/nltk1.html 阅读目录目 ...
机器学习之路： python nltk 文本特征提取
git: https://github.com/linyi0604/MachineLearning 分别使用词袋法和nltk自然预言处理包提供的文本特征提取 from sklearn.feature_ ...
使用Python中的NLTK和spaCy删除停用词与文本标准化
概述了解如何在Python中删除停用词与文本标准化,这些是自然语言处理的基本技术探索不同的方法来删除停用词,以及讨论文本标准化技术,如词干化(stemming)和词形还原(lemmatizatio ...
【NLP】Python NLTK 走进大秦帝国
Python NLTK 走进大秦帝国作者:白宁超 2016年10月17日18:54:10 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公 ...

随机推荐

【t094】区间运算
Time Limit: 1 second Memory Limit: 128 MB [问题描述] 区间运算是数学的一个领域.在区间运算中,常量和变量并不表示为一个单独.精确的值,而是表示为一个有着上界 ...
ios tableView那些事
iOS开发很重要的一个功能就是tableView,可以说熟练使用tableView是iOS开发必修的课程,网上很多相关介绍,推荐一个博客参考一下: http://blog.csdn.net/lengs ...
【codeforces 785C】Anton and Fairy Tale
[题目链接]:http://codeforces.com/contest/785/problem/C [题意] 容量为n的谷仓,每一天都会有m个谷子入仓(满了就视为m);第i天会有i只鸟叼走i个谷子 ...
AndroidStudio封装SDK的那些事
来自自己简书博客:原文地址:https://www.jianshu.com/p/4d092c915ef1 首先SDK是提供给别人调用的工具.所以常见的SDK都是以jar包,so库,aar包等方式导入A ...
Linux常用 bash
学会Linux常用 bash命令目录基本操作1.1. 文件操作1.2. 文本操作1.3. 目录操作1.4. SSH, 系统信息 & 网络操作基本 Shell 编程2.1. 变量2.2. ...
EasyUI入门:怎样引入及简单使用
或许,仅仅有当做比較大的项目的时候,才会发现封装好的东西会为程序员们带来多少方便.合作开发的时候更应该强调复用,才干更加发挥团队的优势. 今天使用了一些EasyUI,发现非常wonderful! 比方 ...
如何将字段中带逗号的SQLite数据库数据导入到MySQL
以前在数据库导入中没有遇到过什么问题,如下这样导入 load data local infile 'D:\data.csv' into table table1 fields terminated b ...
apply plugin: 'idea' --- gradle idea
如果你的项目使用了Gradle作为构建工具,那么你一定要使用Gradle来自动生成IDE的项目文件,无需再手动的将源代码导入到你的IDE中去了. 如果你使用的是eclipse,可以在build.gra ...
Linux（Centos7）下自动启动程序
1.文件转移先将要执行的文件转移或复制到路径较短的地方如:/usr/local 主要是为了方便,同时防止误删.2.编写Service文件 $ vim /usr/lib/systemd/system/ ...
linux 静态库和动态库(共享库)的制作与使用（注意覆盖问题）
一.linux操作系统支持的函数库分支静态库:libxxx.a,在编译时就将库编译进可执行程序优点:程序的运行环境中不需要外部的函数库缺点:可执行程序大动态库:又称共享库,libxxx.so, ...

nltk处理文本

安装

分词

词性标注

提取关键词

nltk处理文本的更多相关文章

随机推荐

热门专题