下载nltk数据包报错

LackyQueen 2024-09-07 19:11:35 原文

安装nltk需要两步：安装nltk和安装nltk_data数据包

安装nltk

安装nltk很简单，可以直接在pycharm环境中安装，flie —> settings—> Python Interpreter —> 点击+ —> 搜索nltk —> intall Package

接下来需要安装nltk_data数据包才能使用nltk

手动安装nltk

最简单的办法：在pychram里使用下面两行代码安装：

1 import nltk

2 nltk.download()

但通常这样安装都会提示：getaddrinfo failed

这是因为这里自动弹出的server index里提供的网址找不到对应的IP

可见，直接代码安装不行

因为其他方法我都试过了，都没有成功，这里推荐我试了之后成功的方法

先进入这个网站：https://github.com/nltk/nltk_data/tree/gh-pages

依次点击Code—>Download Zip下载压缩包

接着执行以下代码：

1 import nltk

2 from nltk_book import *

因为此时还没有安装nltk_data安装包，它会提示找不到数据，并且提示他找数据时的默认路径:

所以我们把nltk_data安装包里packages里的这些文件解压到上述任意路径，重命名为nltk_data即可，我解压到D:\Anaconda3

注意：下载下来的压缩包中，除了packages还有其他文件，这里只需要把packages中的文件就行。我之前就是因为直接把下载下来的压缩包全部解压到Aconda3中，导致后面验证的时候还是一直报错找不到数据！！！

完后以上步骤，执行下面代码试验一下有没有安装成功

1 import nltk

2 from nltk.book import *

出现以下内容，即成功！

注意：在Github上下载的这个压缩数据包，里面的一些子文件夹下还有压缩内容，例如，如果调用nltk进行句子分割，会用到这个函数: word_tokenize()：

1 import nltk

2

3 sen = 'hello, how are you?'

4 res = nltk.word_tokenize(sen)

5 print(res)

会提示 Resource punkt not found. Please use the NLTK Downloader to obtain the resource: 即punkt数据未找到：

类似这样的错误，其实如果找到查找的路径，也就是上面我们放数据包的地方，是可以在tokenizers文件夹下找到这个punkt的，原因就在于没有解压，那么，把punkt.zip解压到文件夹中，再运行分割句子的代码就没问题了。如果有其他的一些数据也是这样的，如果遇到显示没有找到某个数据包，不妨试一试。(如果打开其他的文件夹，发现里面也有未解压的那些文件，我们可以手动将其解压)

下载nltk数据包报错的更多相关文章

maven 导包报错
作为初学者本应当是持之以恒的但是很长时间没有冒泡了这次冒个泡写maven项目的时候遇到了很多的bug,今天给大家分享一下解决的办法(常见的错误就是导不进来自己想要的包)要么就是导包报错以下是解决方法 ...
解决windows下rstudio安装playwith包报错问题
一.playwith包简介 playwith包提供了一个GTK+图形用户界面(GUI),使得用户可以编辑R图形并与其交互.playwith()函数允许用户识别和标注点.查看一个观测所有的变量值.缩放和 ...
flask+sqlite3+echarts2+ajax数据可视化报错：UnicodeDecodeError: 'utf8' codec can't decode byte解决方法
flask+sqlite3+echarts2+ajax数据可视化报错: UnicodeDecodeError: 'utf8' codec can't decode byte 解决方法: 将 py文件和 ...
关于Spring运用过程中jar包报错问题
使用Spring进行web开发时,第一步就是导入jar包,今天使用SPring Task开发定时器时,导入了好多次jar包,都是报错,不知道是因为jar包版本不同还是因为需要依赖的jar包没加入,反正 ...
编译APR包报错 rm: cannot remove `libtoolT': No such file or directory
centos 6 编译APR包报错在当前apr 目录 : #Vi configure +31880 ,注释掉此行再次编译即可.
eclispe集成Scalas环境后，导入外部Spark包报错：object apache is not a member of package org
在Eclipse中集成scala环境后,发现导入的Spark包报错,提示是:object apache is not a member of package org,网上说了一大推,其实问题很简单: ...
数据导入报错：Got a packet bigger than‘max_allowed_packet’bytes的问题
数据导入报错:Got a packet bigger than‘max_allowed_packet’bytes的问题 2个解决方法: 1.临时修改:mysql>set global max_a ...
PyCharm导入tensorflow包报错的问题
[注]PyCharm导入tensorflow包报错的问题若是你也遇到这个问题,说明你也没有理解tensorflow到底在哪里. 当安装了anaconda3.6后,在PyCharm中设置interpr ...
数据导入报错 Got a packet bigger than‘max_allowed_packet’bytes
数据导入报错:Got a packet bigger than‘max_allowed_packet’bytes的问题 2个解决方法: 1.临时修改:mysql>set global max_a ...

随机推荐

keytools命令生成证书
平时开发中可以使用keytools命令生成证书,一般常用格式为: keytool -genkey -alias tzzxxt -keyalg RSA -keypass 123456 -validity ...
10. MySQL基础-02条件查询、排序查询
2. 条件查询语法 select 查询列表 from 表名 where 筛选条件: 分类按条件表达式筛选简单的条件运算符:> < = != <> >= ⇐ 按逻 ...
JQuery学习基础
## 今日内容 1. JQuery 基础: 1. 概念 2. 快速入门 3. JQuery对象和JS对象区别与转换 4. 选择器 ...
【面试普通人VS高手系列】HashMap是怎么解决哈希冲突的？
常用数据结构基本上是面试必问的问题,比如HashMap.LinkList.ConcurrentHashMap等. 关于HashMap,有个学员私信了我一个面试题说: "HashMap是怎么解 ...
2022.02.27 CF811E Vladik and Entertaining Flags（线段树+并查集）
2022.02.27 CF811E Vladik and Entertaining Flags(线段树+并查集) https://www.luogu.com.cn/problem/CF811E Ste ...
攻防世界-MISC:hit-the-core
这是攻防世界MISC高手进阶区的题目,题目如下: 点击下载附件一,解压后得到一个后缀为.core的文件,用string分离一下,得到如下结果: 通过观察发现,每隔四个小写字母就可以看到一个大写字母,刚 ...
ImageKnife组件，让小白也能轻松搞定图片开发
本期我们给大家带来的是开发者周黎生的分享,希望能给你的HarmonyOS开发之旅带来启发~ 图片是UI界面的重要元素之一, 图片加载速度及效果直接影响应用体验.ArkUI开发框架提供了丰富的图像处理能 ...
一行代码如何隐藏 Linux 进程？
开源Linux 长按二维码加关注~ 上一篇:IPv6技术白皮书(附PDF下载) 总有朋友问隐藏Linux进程的方法,我说你想隐藏到什么程度,是大隐于内核,还是小隐于用户.网上通篇论述的无外乎 hook ...
离谱的 CSS！从表盘刻度到艺术剪纸
某日,群里有这样一个问题,如何实现这样的表盘刻度: 这其实是个挺有意思的问题,方法也有很多. 单标签,使用 conic-gradient 实现表盘刻度最简单便捷的方式,就是利用角向渐变的方式 con ...
撸了一个 Feign 增强包 V2.0 升级版
前言大概在两年前我写过一篇撸了一个 Feign 增强包,当时准备是利用 SpringBoot + K8s 构建应用,这个库可以类似于 SpringCloud 那样结合 SpringBoot 使用声 ...