本文是对xing_NLP中的用N-gram语言模型做完型填空这样一个NLP项目环境搭建的一个说明，本来想写在README.md中。第一次用github中的wiki，想想尝试一下也不错，然而格式非常的混乱，自己都满意，所以先在博客园记录一下，等github博客搭建成功了再说。

1. 操作系统：

作为programer，linux自然是首先选择，ubuntu，centos等等都可以。我用的是CentOS7.3，之前用Centos6.5各种报错，建议装最新版的linux系统，何为最新版？2016年以后出的linxu系统。
相关问题，后续给出。

2. 环境搭建：

以下操作建议用root用户进行。

2.1 anaconda（python2.7版）

这里给出清华大学开源镜像下载链接：
[anacondapython2.7最新版清华链接](https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda2-4.4.0-Linux-x86_64.sh)
安装方法：
bash Anaconda2-4.4.0-Linux-x86_64.sh

2.2 安装NLTK安装方法：

pip install NLTK
安装完成后，要在NLTK里下载punkt这个包。
[root@xiaolyu12 ~]# ipython
Python 2.7.13 |Anaconda 4.4.0 (64-bit)| (default, Dec 20 2016, 23:09:15)
Type "copyright", "credits" or "license" for more information.

IPython 5.3.0 -- An enhanced Interactive Python.
? -> Introduction and overview of IPython's features.
%quickref -> Quick reference.
help -> Python's own help system.
object? -> Details about 'object', use 'object??' for extra details.

In [1]: import nltk

In [2]: nltk.download()
NLTK Downloader
---------------------------------------------------------------------------
d) Download l) List u) Update c) Config h) Help q) Quit
---------------------------------------------------------------------------
Downloader> d

Download which package (l=list; x=cancel)?
Identifier> punkt
Downloading package punkt to /root/nltk_data...
Package punkt is already up-to-date!

---------------------------------------------------------------------------
d) Download l) List u) Update c) Config h) Help q) Quit
---------------------------------------------------------------------------
因为我这里安装过，所以出现已经是最新的说明。

2.3 安装Kenlm

这个是本文的重点，异常的复杂：
下面这个链接是官网关于依赖包的安装说明，可以看懂的，照官网来，看不懂的继续往下看：
[kenlm官网关于依赖包的安装说明：](https://kheafield.com/code/kenlm/dependencies/)
说明：安装kenlm之前一定要看一下gcc 的版本(gcc -v)版本一定要>=4.8.否则会报下列错误：
gcc -pthread -fno-strict-aliasing -g -O2 -DNDEBUG -g -fwrapv -O3 -Wall -Wstrict-prototypes -fPIC -I. -I/root/anaconda2/include/python2.7 -c util/float_to_string.cc -o build/temp.linux-x86_64-2.7/util/float_to_string.o -O3 -DNDEBUG -DKENLM_MAX_ORDER=6 -std=c++11 -DHAVE_ZLIB
cc1plus: 警告：命令行选项“-Wstrict-prototypes”对 Ada/C/ObjC 是有效的，但对 C++ 无效
cc1plus: 错误：无法识别的命令行选项“-std=c++11”
error: command 'gcc' failed with exit status 1

----------------------------------------
Command "/root/anaconda2/bin/python -u -c "import setuptools, tokenize;__file__='/tmp/pip-NDhcKC-build/setup.py';f=getattr(tokenize, 'open', open)(__file__);code=f.read().replace('\r\n', '\n');f.close();exec(compile(code, __file__, 'exec'))" install --record /tmp/pip-GP5mEP-record/install-record.txt --single-version-externally-managed --compile" failed with error code 1 in /tmp/pip-NDhcKC-build/`
2.3.1 依赖包的安装：
cmake , xz, zlib , bzip2, boost (boost一定要放在最后安装，它要依赖前面的包）
（1）cmake的安装：因为我是Centos，这个我之前就有，采用yum安装的，编译安装也可以。（官网下载tar.gz,或者tar.bz）
yum install cmake
（2）xz的安装：官网下载最新的，以下给出的地址都是最新的。
wget http://tukaani.org/xz/xz-5.2.2.tar.gz
tar xzvf xz-5.2.2.tar.gz
cd xz-5.2.2
./configure
make
make install
（3）zlib的安装：
wget http://zlib.net/zlib-1.2.8.tar.gz
tar xzf zlib-1.2.8.tar.gz
cd zlib-1.2.8
./configure
make
make install`
(4) bzip2的安装：
wget http://www.bzip.org/1.0.6/bzip2-1.0.6.tar.gz
tar xzvf bzip2-1.0.6.tar.gz
cd bzip2-1.0.6/
make
make install
（5）boost的安装：
wget https://dl.bintray.com/boostorg/release/1.64.0/source/boost_1_64_0.tar.bz2
tar xjf boost_1_64_0.tar.bz2
./bootstrap.sh
./b2 install
说明这个我用源码编译安装出现问题，搞不定，现在将问题贴在这里，看到的可以一起解决一下：
.failed gcc.link.dll bin.v2/libs/iostreams/build/gcc-4.8.5/release/threading-multi/libboost_iostreams.so.1.64.0...

...found 14723 targets...
...updating 3 targets...
gcc.link.dll bin.v2/libs/iostreams/build/gcc-4.8.5/release/threading-multi/libboost_iostreams.so.1.64.0
/usr/bin/ld: /usr/local/lib/libbz2.a(bzlib.o): relocation R_X86_64_32S against `BZ2_crc32Table' can not be used when making a shared object; recompile with -fPIC
/usr/local/lib/libbz2.a: error adding symbols: Bad value
collect2: error: ld returned 1 exit status

"g++" -o "bin.v2/libs/iostreams/build/gcc-4.8.5/release/threading-multi/libboost_iostreams.so.1.64.0" -Wl,-h -Wl,libboost_iostreams.so.1.64.0 -shared -Wl,--start-group "bin.v2/libs/iostreams/build/gcc-4.8.5/release/threading-multi/file_descriptor.o" "bin.v2/libs/iostreams/build/gcc-4.8.5/release/threading-multi/mapped_file.o" "bin.v2/libs/iostreams/build/gcc-4.8.5/release/threading-multi/bzip2.o" "bin.v2/libs/iostreams/build/gcc-4.8.5/release/threading-multi/gzip.o" "bin.v2/libs/iostreams/build/gcc-4.8.5/release/threading-multi/zlib.o" -Wl,-Bstatic -Wl,-Bdynamic -lz -lbz2 -lrt -Wl,--end-group -pthread -m64

...failed gcc.link.dll bin.v2/libs/iostreams/build/gcc-4.8.5/release/threading-multi/libboost_iostreams.so.1.64.0...
...skipped <pstage/lib>libboost_iostreams.so.1.64.0 for lack of <pbin.v2/libs/iostreams/build/gcc-4.8.5/release/threading-multi>libboost_iostreams.so.1.64.0...
...skipped <pstage/lib>libboost_iostreams.so for lack of <pstage/lib>libboost_iostreams.so.1.64.0...
...failed updating 1 target...
...skipped 2 targets...
那我最后是怎么搞定的呢？我用最简单的方法，yum安装：
yum install -y boost boost-devel boost-doc
2.3.2 kenlm的安装：
前面的依赖包安装成功，那么这一步就水到渠成了：
weget http://kheafield.com/code/kenlm.tar.gz
cd kenlm
mkdir build
cd build
cmake ..
make
搞定！

NLP中的用N-gram语言模型做英语完型填空的环境搭建的更多相关文章

moodle中的完形填空题的文本编写方法
moodle中的完形填空题的文本编写方法 [完形填空题]考题把一段文字挖去一些空,让考生根据上下文正确地完成这些填空.完型填空题中的一段短文可以包括各种题目,如选择,填空,和数字题等. 题目的编辑是在 ...
NLP中的预训练语言模型（五）—— ELECTRA
这是一篇还在双盲审的论文,不过看了之后感觉作者真的是很有创新能力,ELECTRA可以看作是开辟了一条新的预训练的道路,模型不但提高了计算效率,加快模型的收敛速度,而且在参数很小也表现的非常好. 论文: ...
NLP中的预训练语言模型（二）—— Facebook的SpanBERT和RoBERTa
本篇带来Facebook的提出的两个预训练模型——SpanBERT和RoBERTa. 一,SpanBERT 论文:SpanBERT: Improving Pre-training by Represe ...
Deep Learning in NLP （一）词向量和语言模型
原文转载:http://licstar.net/archives/328 Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NLP 领域中尚未见到如此激动人心的结果.关于这 ...
Word2Vec之Deep Learning in NLP （一）词向量和语言模型
转自licstar,真心觉得不错,可惜自己有些东西没有看懂这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享.其中必然有局限性,欢迎各种交 ...
从0到1，了解NLP中的文本相似度
本文由云+社区发表作者:netkiddy 导语 AI在2018年应该是互联网界最火的名词,没有之一.时间来到了9102年,也是项目相关,涉及到了一些AI写作相关的功能,为客户生成一些素材文章.但是, ...
图解BERT（NLP中的迁移学习）
目录一.例子:句子分类二.模型架构模型的输入模型的输出三.与卷积网络并行四.嵌入表示的新时代回顾一下词嵌入 ELMo: 语境的重要性五.ULM-FiT:搞懂NLP中的迁移学习六.Tr ...
理解NLP中的卷积神经网络（CNN）
此篇文章是Denny Britz关于CNN在NLP中应用的理解,他本人也曾在Google Brain项目中参与多项关于NLP的项目. · 翻译不周到的地方请大家见谅. 阅读完本文大概需要7分钟左右的时 ...
espnet中的transformer和LSTM语言模型对比实验
摘要:本文以aishell为例,通过对比实验为大家介绍transformer和LSTM语言模型. 本文分享自华为云社区<espnet中的transformer和LSTM语言模型对比---以ais ...

随机推荐

移动端H5通用表单验证插件
将表单验证的通用部分提炼出来,做成一个简易插件,方便调用. 已将源码放到GitHub上,名字叫zValidate. 手机可扫描下图查看示例,PC端可点击此处查看: 一.原理 1)需要引入zepto.j ...
Eclipse设置文字大小
1,选择窗口,preference 2,general
如何在vuejs中抽出公共代码
当我们在使用vue构建中大型项目时,通常会遇到某些经常用的方法以及属性,比如说搭建一个员工管理系统,请求的url需要一个共同的前缀,或者在某几个view中需要用到时间,这个时间是通过某方法格式化之后的 ...
【2017-06-05】Jquery.ajax
AJAX 是一种网页数据异步加载技术通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新.这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新. 一.Json ...
NLTK学习笔记(一):语言处理和Python
目录 [TOC] nltk资料下载 import nltk nltk.download() 其中,download() 参数默认是all,可以在脚本里面加上nltk.download(需要的资料库) ...
腾讯AlloyTeam发布AlloyLever - 开发调试发布错误监控上报用户问题定位尽在1kb代码
AlloyLever [官网][Giuhub] 1kb(gzip)代码搞定开发调试发布,错误监控上报,用户问题定位. 支持错误监控和上报支持 vConsole错误展示支持开发阶段使用 vConso ...
JavaScript设计模式_03_代理模式
代理模式是非常常见的模式,比如我们使用的VPN工具,明星的经纪人,都是代理模式的例子.但是,有人会疑问,明明可以直接访问对象,为什么中间还要加一个壳呢?这也就说到了代理模式的好处.在我看来,代理模式最 ...
写个百万级别full-stack小型协程库——原理介绍
其实说什么百万千万级别都是虚的,下面给出实现原理和测试结果,原理很简单,我就不上图了: 原理:为了简单明了,只支持单线程,每个协程共享一个4K的空间(你可以用堆,用匿名内存映射或者直接开个数组也都是可 ...
oracle 体系结构简介
1.1.SGA(system global area) SGA是oracle Instance的基本组成部分,在示例启动是分配.是一组包含一个oracle实例的数据和控制信息的共享内存结构.主要用于存 ...
关于控制下拉框只读的js控制
文本框有readonly属性,直接设置:下拉框没有readonly属性,也不能通过其他属性进行只读的设置,下拉框只有disabled属性,但是这个属性设成true之后,值就获取不到了: 我在网上搜了一 ...

NLP中的用N-gram语言模型做英语完型填空的环境搭建