kenlm的使用】的更多相关文章

一.背景 近期研究了一下语言模型,同事推荐了一个比较好用的工具包kenlm,记录下使用过程. 二.使用kenlm训练 n-gram 1.工具介绍:http://kheafield.com/code/kenlm/ 2.工具包的下载地址:http://kheafield.com/code/kenlm.tar.gz 3.解压后运行,./bjam 进行编译 4.使用如下命令进行训练:bin/lmplz -o 5 --verbose_header --text data/chat_log.txt --ar…
未经允许不可转载 Kenlm相关知识 Kenlm下载地址 kenlm中文版本训练语言模型 如何使用kenlm训练出来的模型C++版本 关于Kenlm模块的使用及C++源码说明 加载Kenlm模块命令 qy@IAT-QYVPN:~/Documents/kenlm/lm$ ../bin/query -n test.arpa *** Kenlm模块C++源码说明 query的主入口文件:query_main.cc query的执行函数文件:ngram_query.hh 注意: 默认执行的是query_…
1.训练模型 install_path/bin/lmplz -o -S % -T /temp <text >text.arpa -o  表示n_gram 中的n(必选) -S  内存使用(可选) -T  临时文件(可选) -text  待训练语料,必须分词 -text.arpa  输出为arpa格式的n_gram结果,如下图所示: 2.查询模型 为了更快的加载将 text.arpa 转换为 binary 文件 install_path/bin/build_binary text.arpa te…
软件需求: 首先你必须要有Moses(废话哈哈).然后要有GIZA++用作词对齐(traning-model.perl的时候会用到).IRSTLM产生语言模型 大致步骤: 大体的步骤如下: 准备Parallerl data(需要句子对齐):对语料进行tokenisation.truecasing和cleaning步骤之后才能使用于我们的机器翻译系统(哈哈,都快忍不住直接写详细步骤了) 训练你的语言模型(使用IRSTLM):当然也有几步,详细叙述再说 然后就是训练你的翻译系统啦(可能要花一两个小时…
老师要求看看Moses里都有什么参数,调整了参数又会对翻译结果有什么影响,先将找到的参数列出来 首先是权重: [weight] WordPenalty0= LM= Distortion0= PhraseDictionaryMemory0= 调整方法是可以通过moses.ini手动调(其实我觉得挺好...),或者用命令,在另一篇博文里有(过一段摘过来) ----------------------------------- 为了加速翻译的话可以Tuning for Speed,方法有减少搜索空间(…
本文是对xing_NLP中的用N-gram语言模型做完型填空这样一个NLP项目环境搭建的一个说明,本来想写在README.md中.第一次用github中的wiki,想想尝试一下也不错,然而格式非常的混乱,自己都满意,所以先在博客园记录一下,等github博客搭建成功了再说. 1. 操作系统: 作为programer,linux自然是首先选择,ubuntu,centos等等都可以.我用的是CentOS7.3,之前用Centos6.5各种报错,建议装最新版的linux系统,何为最新版?2016年以后…
首先要说明的是,我个人安装cygwin的用途是为了使用kenlm工具训练通及语言模型. 注:统计语言模型工具有比较多的选择,目前比较好的有srilm以及kenlm,其中kenlm比srilm晚出来,训练速度也更快,而且支持单机大数据的训练. 因为使用该工具在Linux环境下比较方便,我是win10系统,所以需要使用cywin 64模拟linux环境 (先确保linux环境已经按照1.36.0的Boost和zlib.) 然后gcc版本需要是4.8.2及以上. 之后出现的界面,默认为第一个选项,意思…
Speech and Natural Language Processing obtain from this link: https://github.com/edobashira/speech-language-processing A curated list of speech and natural language processing resources. Other lists can be found in this list. If you want to contribut…
https://github.com/mounicam/lexical_simplification 提供了SimplePPDBpp: SimplePPDB++ resource consisting of around 14.1 million paraphrase rules along with their readability scores.   --- 非英文 主要贡献:1.创造了人为评分的15000个英文单词复杂度2.提出了a novel neural readability ra…
自然语言处理(NLP)是人工智能研究中极具挑战的一个分支.随着深度学习等技术的引入,NLP领域正在以前所未有的速度向前发展.但对于初学者来说,这一领域目前有哪些研究和资源是必读的?最近,Kyubyong Park 为我们整理了一份完整列表. GitHub 项目链接:https://github.com/Kyubyong/nlp_tasks 本人从事自然语言处理任务(NLP)的研究已经有很长时间了,有一天我想到,我需要为庞大的 NLP领域做一个概览,我知道自己肯定不是想要一睹 NLP 任务的全貌的…