NLPP-00-Preparation
NLPP is short for Natural Language Processing with Python
《Python 自然语言处理(Natural Language Processing with Python)》, Steven Bird etc.[著],陈涛等译,人民邮电出版社,2014
学习这本书必须安装NLTK及相应的语料库。
1.安装NLTK
1.1 ubuntu 14.04LTS
安装python packages,python社区推荐用pip。用pip安装不好用,放弃此法。
采用ubuntu的apt-get安装各个软件包,好用。安装nltk,先需要安装numpy, matplotlib,然后安装nltk,在安装nltk过程中,会额外安装yaml。猜测基本的nltk实验、开发环境必需numpy, matplotlib, nltk, yaml四个软件包。
sudo apt-get install python-numpy
sudo apt-get install python-matplotlib
sudo apt-get install python-nltk
1.2 Fedora release 20 (Heisenbug)
依然必需numpy, matplotlib, nltk, yaml四个软件包,采用yum方式安装。包名略有差别,如yaml,在ubuntu中叫python-yaml;在fedora中名为PyYAML
sudo yum install numpy
sudo yum install python-matplotlib
sudo yum insall python-nltk
1.3 测试
安装完毕在命令行状态下,输入
python
进入python解释器。
在python 状态下输入
import nltk
无误,即成功安装NLTK。
2. 安装语料库
在输入命令import nltk后,继续在python解释器输入
nltk.download()
2.1 ubuntu 14.04LTS
显示一个下载窗口,如书中图1-1所示,但没有内容,无法下载语料库。注意这个窗口下方"Download Directory"里面的目录。这个目录就是语料库应保存的位置。
到糯米糊糊的专栏,博主提供了语料库云盘下载。
下载后,放到"Download Directory"所示目录即可。
2.2 Fedora 20 (Heisenbug)
输入nltk.download(),显示窗口,而且窗口中是有内容的。似应可以下载。
并未进一步试验,只是需要将前述下载的语料库放到相应目录中。
注意,它的目录与Ubuntu不同,要求放在这几个目录下。
- '/root/nltk_data'
- '/usr/share/nltk_data'
- '/usr/local/share/nltk_data'
- '/usr/lib/nltk_data'
- '/usr/local/lib/nltk_data'
放在/usr/share/nltk_data中,权限修改为755。
即可用nltk做试验,可运行书中例子,进行学习了。
2.3 测试
在python解释器中输入
from nltk.book import *
无误,能引入相应语料,即可。
3. 小结
nltk学习、实验环境搭建完毕。
NLPP-00-Preparation的更多相关文章
- C#得到某月最后一天晚上23:59:59和某月第一天00:00:00
项目需求: 某学校订单截止操作时间的上一个月最后一天晚上23:59:59 为止所有支付的订单统计: 代码: /// <summary> /// 通过学校和截止时间得到订单 /// < ...
- SqlDateTime overflow. Must be between 1/1/1753 12:00:00 AM and 12/31/9999 11:59:59 PM.
相信很多人进行数据存储时,会遇上如标题的异常错误. 其实也不算上一个错误. 当你的程序中有宣告一个字段的数据类型为DateTime时,但你又没有赋值给它,就进行存储时,它就会得到这样一个结果. 看看下 ...
- Nginx %00空字节执行php漏洞
Nginx如下版本:0.5.*, 0.6.*, 0.7 <= 0.7.65, 0.8 <= 0.8.37在使用PHP-FastCGI执行php的时候,URL里面在遇到%00空字节时与Fas ...
- MongoDB 由于目标计算机积极拒绝,无法连接 2014-07-25T11:00:48.634+0800 warning: Failed to connect to 127.0.0.1:27017, reason: errno:10061
转载自:http://www.cnblogs.com/xiaoit/p/3867573.html 1:启动MongoDB 2014-07-25T11:00:48.634+0800 warning: F ...
- SQL 2008升级SQL 2008 R2完全教程或者10.00.1600升级10.50.1600
http://blog.csdn.net/feng19821209/article/details/8571571 SQL 2008升级SQL 2008 R2完全教程或者10.00.1600升级10. ...
- “SqlDateTime 溢出。必须介于 1/1/1753 12:00:00 AM 和 12/31/9999 11:59:59 PM 之间。”
原因: .NET中 DateTime最小值为: 0001-1-1 0:00:00 数据库中DateTime最小值为: 1753-1-1 0:00:00, 很明显:.NET中的最小值超出了数据库时间类 ...
- '0000-00-00 00:00:00' can not be represented as java.sql.Timestamp error
'0000-00-00 00:00:00' can not be represented as java.sql.Timestamp error 异常现象 ### Cause: java.sql.SQ ...
- 在freemarker中,价格 怎么将¥100变成 ¥100.00
${tempNum?string.currency}或${tempNum?string(“currency”)} à结果为¥20.00${tempNum?string. percent}或${temp ...
- 使用centos引导内核错误:kernel: pnp 00:0b: can't evaluate _CRS: 8
CentOS系统在开机过程中,一直遇到黑屏提示:“kernel: pnp 00:0b: can't evaluate _CRS: 8”,不理会它仍能启动系统并正常工作,未知何故. 经查,这是内核引导的 ...
- mysql解决Value ‘0000-00-00 00:00:00’ can not be represented as java.sql.Timestamp
同步发布:http://www.yuanrengu.com/index.php/mysqlsolvetimestamp.html 在使用mysql时,如果数据库中的字段类型是timestamp,默认为 ...
随机推荐
- UVA 10474 大理石在哪 lower_bound
题意:找输入的数在排完序之后的位置. 主要是lower_bound 函数的使用.它的作用是查找大于或者等于x的第一个位置. #include<cstdio> #include<alg ...
- 转载: 正确处理浏览器在下载文件时HTTP头的编码问题(Content-Disposition)
最近在做一个下载工具时,发现CSDN上的资源下载时竟然没有被拦截到,经过分析,终于有了一个发现,解决了我之前做文件下载时的乱码问题,所以转载这篇释疑文章,希望有人可以看到,可以从中得到帮助,也用来备忘 ...
- mysql数据库设计
2.MySQL之选择字段数据类型 1.http://blog.itpub.net/29660208/viewspace-1208352/ 3.http://www.cnblogs.com/HondaH ...
- JUQERY 获取同名称的所有CHECKBOX ,获取已经选择的,并且jquery进行勾选!
var @(Perfix)_CheckArray=[]; @(Perfix)_CheckArray.length=0; var checkedItems = $('input[name="@ ...
- jquery serialize()、serializearray()已经$.param方法
serialize: 序列表表格内容为字符串,用于 Ajax 请求.可以对整个form,也可以只针对某部分. HTML 代码: <p id="results">< ...
- 通过List<String>动态传递参数给 sqlcommand.Parameters
通过List<String>动态传递参数 private void GetallChecked_TreeNote(TreeNodeCollection aNodes, ref int To ...
- AX Dynamic 2012 SSRS 按行数分页
按行数分页 1. Create a new Row Group with the following grouping expression: =Ceiling(RowNumber(Nothing)/ ...
- 50. Remove Duplicates from Sorted Array && Remove Duplicates from Sorted Array II && Remove Element
Remove Duplicates from Sorted Array Given a sorted array, remove the duplicates in place such that e ...
- 26. Binary Tree Maximum Path Sum
Binary Tree Maximum Path Sum Given a binary tree, find the maximum path sum. The path may start and ...
- app测试与web测试的区别
1.从功能测试的来讲的话,在流程和功能测试上是没有区别的.系统测试和一些细节可能会不一样. 那么我们就要先来了解,web和app的区别. web项目,一般都是b/s架构,基于浏览器的,而app则是c/ ...