NLP-python 自然语言处理01

  # -*- coding: utf-8 -*-

 """

 Created on Wed Sep  6 22:21:09 2017

 @author: Administrator

 """

 import nltk

 from nltk.book import *

 # 搜搜单词

 text1.concordance("monstrous")  # 查找关键词

 #搜搜相似词

 text1.similar('monstrous')

 # 搜搜共同的上下文

 text2.common_contexts(['monstrous', 'very'])

 # 词汇的分布

 text4.dispersion_plot(['moustrous','very'])

 # 词汇的长度

 len(text3)

 # 重复词密度

 len(text3)/len(set(text3))

 #关键词密度

 text3.count('smote')

 100*text4.count('a')/len(text4)

 def lexical_diversity(text):

     return len(text) / len(set(text))

 def percentage(count, total):

     return 100 * count /total

 sent1=['Call', 'me', 'Ishmael', '.']

 # 获取文本词索引,注意索引的长度，从零开始

 text3[172]

 text3.index('love')

 # 频率分布情况,对常用词语的判断

 # 简单统计， 频率分布

 fdist1 = FreqDist(text1)

 vocabulary1 = fdist1.keys()

 fdist1['whale']

 fdist1.plot(50, cumulative=True)

 # 低频词

 fdist1.hapaxes()

 # 细粒度的词选择

 V = set(text1)

 long_words = [w for w in V if len(w) >15]

 sorted(long_words)

 # 词频加词的长度同时决定

 fdist5 = FreqDist(text5)

 sorted([w for w in set(text5) if len(w) > 7 and fdist5[w] > 7])

 # 常用词语搭配,双元词搭配

 from nltk.util import bigrams

 list(bigrams(['more', 'is', 'said', 'than', 'done']))

 # 常用的双元词搭配

 text4.collocations()

 # 文本中每个词的长度

 [len(w) for w in text1]

 # 各个长度词的分布,输出是一个字典

 fdist = FreqDist([len(w) for w in text1])

 fdist.keys()    # 索引值

 fdist.items()

 fdist.max()    # 词汇出现最多的那个词的索引

 fdist[3]     # 索引值为3的位置

NLP-python 自然语言处理01的更多相关文章

Python自然语言处理（1）：初识NLP
由于我们从美国回来就是想把医学数据和医学人工智能的事认真做起来,所以我们选择了比较扎实的解决方法,想快速出成果的请绕道.我们的一些解决方法是:1.整合公开的所有医学词典,尽可能包含更多的标准医学词汇: ...
学习NLP:《精通Python自然语言处理》中文PDF+英文PDF+代码
自然语言处理是计算语言学和人工智能之中与人机交互相关的领域之一. 推荐学习自然语言处理的一本综合学习指南<精通Python自然语言处理>,介绍了如何用Python实现各种NLP任务,以帮助 ...
Python自然语言处理工具小结
Python自然语言处理工具小结作者:白宁超 2016年11月21日21:45:26 目录 [Python NLP]干货!详述Python NLTK下如何使用stanford NLP工具包(1) [ ...
《Python自然语言处理》中文版-纠错【更新中。。。】
最近在看<Python自然语言处理>中文版这本书,可能由于是从py2.x到py3.x,加上nltk的更新的原因,或者作者的一些笔误,在书中很多代码都运行不能通过,下面我就整理一下一点有问题 ...
《Python自然语言处理》
<Python自然语言处理> 基本信息作者: (美)Steven Bird Ewan Klein Edward Loper 出版社:人民邮电出版社 ISBN:97871153 ...
郑捷2017年电子工业出版社出版的图书《NLP汉语自然语言处理原理与实践》
郑捷2017年电子工业出版社出版的图书<NLP汉语自然语言处理原理与实践> 第1章中文语言的机器处理 1 1.1 历史回顾 2 1.1.1 从科幻到现实 2 1.1.2 早期的探索 3 ...
转-Python自然语言处理入门
Python自然语言处理入门原文链接:http://python.jobbole.com/85094/ 分享到:20 本文由伯乐在线 - Ree Ray 翻译,renlytime 校稿.未经许 ...
Python 学习笔记01
print:直接输出 type,求类型数据类型:字符串,整型,浮点型,Bool型 note01.py # python learning note 01 print('Hello w ...
Python 自然语言处理笔记(一)
一． NLTK的几个常用函数 1. Concordance 实例如下: >>> text1.concordance("monstrous") Displaying ...
NLP1 —— Python自然语言处理环境搭建
最近开始研究自然语言处理了,所以准备好好学习一下,就跟着<Python自然语言处理>这本书,边学边整理吧安装 Mac里面自带了python2.7,所以直接安装nltk就可以了. 默认执行 ...

随机推荐

tomcat运行模式APR安装
centos6.2下,Tomcat运行模式apr安装过程,如下: 一.安装apr [root@vmT227-m5 /]# cd /usr/local/ [root@vmT227-m5 local]# ...
wordpress for sae
帮人建个站,准备用sae+wordpess,小研究一下 http://sae.sina.com.cn/?m=apps&a=detail&aid=1 http://wp4sae.org/ ...
butterknife用法总结
无刷新上传图片以及使用C#语言
写这个纯属是给自己一个记忆啦一.前台的代码以及调用的js <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtm ...
【Spring源码分析系列】结构组成和容器的基本实现
beans包的层级结构 src/main/java:用于展现Spring的主要逻辑 src/main/resources:用于存放系统的配置文件 src/test/java:用于对主要逻辑单元进行测试 ...
【大数据系列】hadoop2.0中的jobtracker和tasktracker哪里去了
低版本的hadoop下MapReduce处理流程 1.首先用户程序(JobClient)提交了一个job,job的信息会发送到Job Tracker,Job Tracker是Map-reduce框架的 ...
div里粘贴文字后，移动光标至最后
cursormanager.js //Namespace management idea from http://enterprisejquery.com/2010/10/how-good-c-hab ...
storm事务
1. storm 事务对于容错机制,Storm通过一个系统级别的组件acker,结合xor校验机制判断一个msg是否发送成功,进而spout可以重发该msg,保证一个msg在出错的情况下至少被重发一 ...
URI Scheme注册伪协议实现远程命令执行
Windows配置注册表注册伪协议 1.新建伪协议项 WIN+R 输入regedit 打开注册表,在注册表HKEY_CLASSES_ROOT键中新建一个项,项的名字就是你伪协议的名字,例如我注册一个c ...
Json.NET Deserialize时如何忽略$id等特殊属性
由于$id.$ref等是默认Json.NET的特殊属性,在反序列化时不会将其对应的值填充,例如: [DataContract] public class MyObject { [DataMember( ...

NLP-python 自然语言处理01

NLP-python 自然语言处理01的更多相关文章

随机推荐

热门专题