【389】Implement N-grams using NLTK

Ref: n-grams in python, four, five, six grams?

Ref: "Elegant n-gram generation in Python"

import nltk

sentence = """At eight o'clock on Thursday morning

Arthur didn't feel very good."""

# 1 gram

tokens = nltk.word_tokenize(sentence)

print("1 gram:\n", tokens, "\n")

# 2 grams

n = 2

tokens_2 = nltk.ngrams(tokens, n)

print("2 grams:\n", [i for i in tokens_2], "\n")

# 3 grams

n = 3

tokens_3 = nltk.ngrams(tokens, n)

print("3 grams:\n", [i for i in tokens_3], "\n")

# 4 grams

n = 4

tokens_4 = nltk.ngrams(tokens, n)

print("4 grams:\n", [i for i in tokens_4], "\n")

outputs:

1 gram:

 ['At', 'eight', "o'clock", 'on', 'Thursday', 'morning', 'Arthur', 'did', "n't", 'feel', 'very', 'good', '.'] 

2 grams:

 [('At', 'eight'), ('eight', "o'clock"), ("o'clock", 'on'), ('on', 'Thursday'), ('Thursday', 'morning'), ('morning', 'Arthur'), ('Arthur', 'did'), ('did', "n't"), ("n't", 'feel'), ('feel', 'very'), ('very', 'good'), ('good', '.')] 

3 grams:

 [('At', 'eight', "o'clock"), ('eight', "o'clock", 'on'), ("o'clock", 'on', 'Thursday'), ('on', 'Thursday', 'morning'), ('Thursday', 'morning', 'Arthur'), ('morning', 'Arthur', 'did'), ('Arthur', 'did', "n't"), ('did', "n't", 'feel'), ("n't", 'feel', 'very'), ('feel', 'very', 'good'), ('very', 'good', '.')] 

4 grams:

 [('At', 'eight', "o'clock", 'on'), ('eight', "o'clock", 'on', 'Thursday'), ("o'clock", 'on', 'Thursday', 'morning'), ('on', 'Thursday', 'morning', 'Arthur'), ('Thursday', 'morning', 'Arthur', 'did'), ('morning', 'Arthur', 'did', "n't"), ('Arthur', 'did', "n't", 'feel'), ('did', "n't", 'feel', 'very'), ("n't", 'feel', 'very', 'good'), ('feel', 'very', 'good', '.')]

Another method to output:

import nltk

sentence = """At eight o'clock on Thursday morning

Arthur didn't feel very good."""

# 1 gram

tokens = nltk.word_tokenize(sentence)

print("1 gram:\n", tokens, "\n")

# 2 grams

n = 2

tokens_2 = nltk.ngrams(tokens, n)

print("2 grams:\n", [' '.join(list(i)) for i in tokens_2], "\n")

# 3 grams

n = 3

tokens_3 = nltk.ngrams(tokens, n)

print("3 grams:\n", [' '.join(list(i)) for i in tokens_3], "\n")

# 4 grams

n = 4

tokens_4 = nltk.ngrams(tokens, n)

print("4 grams:\n", [' '.join(list(i)) for i in tokens_4], "\n")

outputs:

1 gram:

 ['At', 'eight', "o'clock", 'on', 'Thursday', 'morning', 'Arthur', 'did', "n't", 'feel', 'very', 'good', '.'] 

2 grams:

 ['At eight', "eight o'clock", "o'clock on", 'on Thursday', 'Thursday morning', 'morning Arthur', 'Arthur did', "did n't", "n't feel", 'feel very', 'very good', 'good .'] 

3 grams:

 ["At eight o'clock", "eight o'clock on", "o'clock on Thursday", 'on Thursday morning', 'Thursday morning Arthur', 'morning Arthur did', "Arthur did n't", "did n't feel", "n't feel very", 'feel very good', 'very good .'] 

4 grams:

 ["At eight o'clock on", "eight o'clock on Thursday", "o'clock on Thursday morning", 'on Thursday morning Arthur', 'Thursday morning Arthur did', "morning Arthur did n't", "Arthur did n't feel", "did n't feel very", "n't feel very good", 'feel very good .']

获取一段文字中的大写字母开头的词组和单词

import nltk

from nltk.corpus import stopwords

a = "I am Alex Lee. I am from Denman Prospect and I love this place very much. We don't like apple. The big one is good."

tokens = nltk.word_tokenize(a)

caps = []

for i in range(1, 4):

    for eles in nltk.ngrams(tokens, i):

        length = len(list(eles))

        for j in range(length):

            if eles[j][0].islower() or not eles[j][0].isalpha():

                break

            elif j == length - 1:

                caps.append(' '.join(list(eles)))

caps = list(set(caps))

caps = [c for c in caps if c.lower() not in stopwords.words('english')]

print(caps)

outputs:

['Denman', 'Prospect', 'Alex Lee', 'Lee', 'Alex', 'Denman Prospect']

【389】Implement N-grams using NLTK的更多相关文章

【leetcode】Implement strStr() (easy)
Implement strStr(). Returns the index of the first occurrence of needle in haystack, or -1 if needle ...
【leetcode】Implement strStr()
Implement strStr() Implement strStr(). Returns the index of the first occurrence of needle in haysta ...
【Leetcode】【Easy】Implement strStr()
Implement strStr(). Returns the index of the first occurrence of needle in haystack, or -1 if needle ...
【LeetCode225】 Implement Stack using Queues★
1.题目 2.思路 3.java代码 import java.util.LinkedList; import java.util.Queue; public class MyStack { priva ...
【LeetCode232】 Implement Queue using Stacks★
1.题目描述 2.思路思路简单,这里用一个图来举例说明: 3.java代码 public class MyQueue { Stack<Integer> stack1=new Stack& ...
【LeetCode】Implement strStr()(实现strStr())
这道题是LeetCode里的第28道题. 题目描述: 实现 strStr() 函数. 给定一个 haystack 字符串和一个 needle 字符串,在 haystack 字符串中找出 needle ...
28. Implement strStr()【easy】
28. Implement strStr()[easy] Implement strStr(). Returns the index of the first occurrence of needle ...
【LeetCode】哈希表 hash_table（共88题）
[1]Two Sum (2018年11月9日,k-sum专题,算法群衍生题) 给了一个数组 nums, 和一个 target 数字,要求返回一个下标的 pair, 使得这两个元素相加等于 target ...
【LeetCode】String to Integer (atoi) 解题报告
这道题在LeetCode OJ上难道属于Easy.可是通过率却比較低,究其原因是须要考虑的情况比較低,非常少有人一遍过吧. [题目] Implement atoi to convert a strin ...

随机推荐

ARCGIS 出图显示not map metafile into memory.Not enough memory
有许多的原因,比如系统有问题,磁盘空间不够,或虚拟内存设置不对等.再有就是输出地图时分辨率的设置是否太大等. not enough memory 这个问题是ESRI的一个所谓的“臭名昭著 ...
js对象-平铺与嵌套的互相转换
一个json对象,包含嵌套关系,传输过来的时候是平铺的,顺序打乱,用parentCode属性来关联,如下 { "1":{ "name": "中国&qu ...
JVM调优常用参数
JVM常用参数配置 -Xmx2048m 最大堆大小 -Xms1024m 初始堆大小 -Xmn1024m 年轻代大小 -XX:SurvivorRatio=8 Eden区与Survivor区的大小比值,设 ...
OpenGL模版小案例分析
下面的案例通过模版实现三角形截取的功能,代码如下: void draw(){ GLuint programObject; GLfloat vVerticessmall[] = { 0.0f, 0.25 ...
oracle SQL语句取本周本月本年的数据
--国内从周一到周日国外是周日到周六 select to_char(sysdate-1,'D') from dual;--取国内的星期几去掉减一取国外的星期 --取本周时间内的数据 ,)+) an ...
Mybatis实现in查询（注解形式和xml形式）
1. @Select注解中使用in @Select({"<script> " + " select * "+ " from busines ...
WPF 获取文件夹路径，目录路径，复制文件，选择下载文件夹/目录
private void Border_MouseLeftButtonUp_4(object sender, MouseButtonEventArgs e) { //获取项目中文件 , System. ...
RBAC表
--权限管理1 CREATE TABLE SystemLog--日志表 ( Id ,) PRIMARY KEY,--主键id UserName ) NOT NULL,--用户名称,创建日志的用户名称 ...
重识linux-仅执行一次的工作调动at
重识linux-仅执行一次的工作调动at 使用的是at命令 1 在系统中使用的是 atd这个服务默认是不开启的先启动 atd start 查看atd的状态 service atd status 2 ...
《算法》第二章部分程序 part 4
▶ 书中第二章部分程序,加上自己补充的代码,包括优先队列和索引优先队列 ● 优先队列 package package01; import java.util.Comparator; import ja ...

【389】Implement N-grams using NLTK

【389】Implement N-grams using NLTK的更多相关文章

随机推荐

热门专题