python自然语言处理——学习笔记：Chapter3纠错

2017-12-06更新：很多代码执行结果与书中不一致，是因为python的版本不一致。如果发现有问题，可以参考英文版：

http://www.nltk.org/book/

第三章，P87有一段处理html的代码：

>>>raw = nltk.clean_html(html)

>>>tokens = nltk.word_tokenize(raw)

>>>tokens

可是我们执行会有如下错误：

>>> raw = nltk.clean_html(html)

Traceback (most recent call last):

  File "<stdin>", line 1, in <module>

  File "/Library/Python/2.7/site-packages/nltk/util.py", line 356, in clean_html

    raise NotImplementedError ("To remove HTML markup, use BeautifulSoup's get_text() function")

NotImplementedError: To remove HTML markup, use BeautifulSoup's get_text() function

根据官方网站：介绍http://www.nltk.org/_modules/nltk/util.html
def clean_html(html):
raise NotImplementedError ("To remove HTML markup, use BeautifulSoup's get_text() function")
[docs]def clean_url(url):
raise NotImplementedError ("To remove HTML markup, use BeautifulSoup's get_text() function")
网站：http://stackoverflow.com/questions/10524387/beautifulsoup-get-text-does-not-strip-all-tags-and-javascript介绍：
以后的版本，似乎不支持clean_html()和clean_url()这两个函数
Support for clean_html and clean_url will be dropped for future versions of nltk. Please use BeautifulSoup for now...it's very unfortunate.
有关处理HTML 的内容，可以使用http://www.crummy.com/software/BeautifulSoup/上的Beautiful Soup 软件包。

安装：sudo pip install beautifulsoup4

之后替换书上的代码：

from __future__ import division

import nltk, re, pprint

from urllib import urlopen

from bs4 import BeautifulSoup

def read_html():

    url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"

    html = urlopen(url).read()

    soup = BeautifulSoup(html)

    text = soup.get_text()

    print text

    tokens = nltk.word_tokenize(text)

    print tokens

def main():

    read_html()

if __name__ == '__main__':

    main()

上述脚本文件可以独立运行，运行结果与书上一致

python自然语言处理——学习笔记：Chapter3纠错的更多相关文章

python自然语言处理学习笔记1
1.搭建环境下载anaconda并安装,(其自带python2.7和一些常用包,NumPy,Matplotlib),第一次启动使用spyder 2.下载nltk import nltk nltk.d ...
Python自然语言处理学习笔记之性别识别
从今天起开始写自然语言处理的实践用法,今天学了文本分类,并没用什么创新的东西,只是把学到的知识点复习一下性别识别(根据给定的名字确定性别) 第一步是创建一个特征提取函数(feature extrac ...
python自然语言处理学习笔记2
基础语法搜索文本----词语索引使我们看到词的上下 text1.concordance("monstrous") 词出现在相似的上下文中 text1.similar(" ...
Python自然语言处理学习笔记(69)
http://www.cnblogs.com/yuxc/archive/2012/02/09/2344474.html Chapter8 Analyzing Sentence Structure ...
Python自然语言处理学习笔记之信息提取步骤&分块（chunking）
一.信息提取模型信息提取的步骤共分为五步,原始数据为未经处理的字符串, 第一步:分句,用nltk.sent_tokenize(text)实现,得到一个list of strings 第二步:分词,[ ...
Python自然语言处理学习笔记之评价（evaluationd）
对模型的评价是在test set上进行的,本文首先介绍测试集应该满足的特征,然后介绍四种评价方法. 一.测试集的选择 1.首先,测试集必须是严格独立于训练集的,否则评价结果一定很高,但是虚高,不适用于 ...
Python自然语言处理学习笔记之选择正确的特征（错误分析 error analysis）
选择合适的特征(features)对机器学习的效率非常重要.特征的提取是一个不断摸索的过程(trial-and-error),一般靠直觉来发现哪些特征对研究的问题是相关的. 一种做法是把你能想到的所有 ...
Requests:Python HTTP Module学习笔记（一）（转）
Requests:Python HTTP Module学习笔记(一) 在学习用python写爬虫的时候用到了Requests这个Http网络库,这个库简单好用并且功能强大,完全可以代替python的标 ...
python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...

随机推荐

Unix系统编程（）执行非局部跳转：setjmp和longjmp
使用库函数setjmp和longjmp可执行非局部跳转(local goto). 术语"非局部(nonlocal)"是指跳转目标为当前执行函数之外的某个位置. C语言里面有个&qu ...
1.phpmyadmin的配置
一.解压后得到一个目录,进入相关目录中的\libraries目录,找到 config.default.php文件copy份到上级目录,并命名为config.inc.php ; 二.修改confing. ...
容斥 + 组合数学 ---Codeforces Round #317 A. Lengthening Sticks
Lengthening Sticks Problem's Link: http://codeforces.com/contest/571/problem/A Mean: 给出a,b,c,l,要求a+x ...
[android] AndroidManifest.xml - 【 manifest -> Application -> activity 】
<activity android:allowTaskReparenting=["true" | "false"] android:alwaysRetai ...
backbone.js初探(转)
BackBone是JavaScript frameworks for creating MVC-like web applications,最近流行的用来建立单页面web application的工具 ...
sdut 面向对象程序设计上机练习十（运算符重载）
面向对象程序设计上机练习十(运算符重载) Time Limit: 1000MS Memory limit: 65536K 题目描写叙述定义一个复数类Complex,重载运算符"+" ...
详谈JavaScript 匿名函数及闭包
1.匿名函数函数是JavaScript中最灵活的一种对象,这里只是讲解其匿名函数的用途.匿名函数:就是没有函数名的函数. 1.1 函数的定义,首先简单介绍一下函数的定义,大致可分为三种方式第一种:这 ...
MFC获取系统当前时间
1.使用CTime类 CString str; //获取系统时间 CTime tm; tm=CTime::GetCurrentTime(); str=tm.Format("现在时间是%Y年% ...
BEGIN_MESSAGE_MAP(Caccess_test_1Dlg, CDialogEx)
BEGIN_MESSAGE_MAP(...消息映射宏的一部分.ON_WM_CREATE()产生一个消息处理函数映射项目,把WM_CREATE和OnCreate函数联系起来. 参数的个数和类型是系统已经 ...
C++ map修改指定key的value
对于修改C++指定key的value,网上查了很多,都说直接insert就会覆盖原来的值,是否是这样的呢? C++ Code 12345678910111213141516171819202122 ...

python自然语言处理——学习笔记：Chapter3纠错

python自然语言处理——学习笔记：Chapter3纠错的更多相关文章

随机推荐

热门专题