kenlm的使用

【kenlm的使用】的更多相关文章

语言模型kenlm的训练及使用

一.背景近期研究了一下语言模型,同事推荐了一个比较好用的工具包kenlm,记录下使用过程. 二.使用kenlm训练 n-gram 1.工具介绍:http://kheafield.com/code/kenlm/ 2.工具包的下载地址:http://kheafield.com/code/kenlm.tar.gz 3.解压后运行,./bjam 进行编译 4.使用如下命令进行训练:bin/lmplz -o 5 --verbose_header --text data/chat_log.txt --ar…

【原创】cython and python for kenlm

未经允许不可转载 Kenlm相关知识 Kenlm下载地址 kenlm中文版本训练语言模型如何使用kenlm训练出来的模型C++版本关于Kenlm模块的使用及C++源码说明加载Kenlm模块命令 qy@IAT-QYVPN:~/Documents/kenlm/lm$ ../bin/query -n test.arpa *** Kenlm模块C++源码说明 query的主入口文件:query_main.cc query的执行函数文件:ngram_query.hh 注意: 默认执行的是query_…

1.训练模型 install_path/bin/lmplz -o -S % -T /temp <text >text.arpa -o 表示n_gram 中的n(必选) -S 内存使用(可选) -T 临时文件(可选) -text 待训练语料,必须分词 -text.arpa 输出为arpa格式的n_gram结果,如下图所示: 2.查询模型为了更快的加载将 text.arpa 转换为 binary 文件 install_path/bin/build_binary text.arpa te…

Moses创建一个翻译系统的基本过程记录，以后会按照每个过程详细说明，并给出每个步骤的参数说明

软件需求: 首先你必须要有Moses(废话哈哈).然后要有GIZA++用作词对齐(traning-model.perl的时候会用到).IRSTLM产生语言模型大致步骤: 大体的步骤如下: 准备Parallerl data(需要句子对齐):对语料进行tokenisation.truecasing和cleaning步骤之后才能使用于我们的机器翻译系统(哈哈,都快忍不住直接写详细步骤了) 训练你的语言模型(使用IRSTLM):当然也有几步,详细叙述再说然后就是训练你的翻译系统啦(可能要花一两个小时…

Moses 里的参数（未完成）

老师要求看看Moses里都有什么参数,调整了参数又会对翻译结果有什么影响,先将找到的参数列出来首先是权重: [weight] WordPenalty0= LM= Distortion0= PhraseDictionaryMemory0= 调整方法是可以通过moses.ini手动调(其实我觉得挺好...),或者用命令,在另一篇博文里有(过一段摘过来) ----------------------------------- 为了加速翻译的话可以Tuning for Speed,方法有减少搜索空间(…

NLP中的用N-gram语言模型做英语完型填空的环境搭建

本文是对xing_NLP中的用N-gram语言模型做完型填空这样一个NLP项目环境搭建的一个说明,本来想写在README.md中.第一次用github中的wiki,想想尝试一下也不错,然而格式非常的混乱,自己都满意,所以先在博客园记录一下,等github博客搭建成功了再说. 1. 操作系统: 作为programer,linux自然是首先选择,ubuntu,centos等等都可以.我用的是CentOS7.3,之前用Centos6.5各种报错,建议装最新版的linux系统,何为最新版?2016年以后…

win10下安装Cygwin配置gcc编译环境

首先要说明的是,我个人安装cygwin的用途是为了使用kenlm工具训练通及语言模型. 注:统计语言模型工具有比较多的选择,目前比较好的有srilm以及kenlm,其中kenlm比srilm晚出来,训练速度也更快,而且支持单机大数据的训练. 因为使用该工具在Linux环境下比较方便,我是win10系统,所以需要使用cywin 64模拟linux环境 (先确保linux环境已经按照1.36.0的Boost和zlib.) 然后gcc版本需要是4.8.2及以上. 之后出现的界面,默认为第一个选项,意思…

(zhuan) Speech and Natural Language Processing

Speech and Natural Language Processing obtain from this link: https://github.com/edobashira/speech-language-processing A curated list of speech and natural language processing resources. Other lists can be found in this list. If you want to contribut…

A Word-Complexity Lexicon and A Neural Readability Ranking Model for Lexical Simplification-paper

https://github.com/mounicam/lexical_simplification 提供了SimplePPDBpp: SimplePPDB++ resource consisting of around 14.1 million paraphrase rules along with their readability scores. --- 非英文主要贡献:1.创造了人为评分的15000个英文单词复杂度2.提出了a novel neural readability ra…

自然语言处理领域重要论文&资源全索引

自然语言处理(NLP)是人工智能研究中极具挑战的一个分支.随着深度学习等技术的引入,NLP领域正在以前所未有的速度向前发展.但对于初学者来说,这一领域目前有哪些研究和资源是必读的?最近,Kyubyong Park 为我们整理了一份完整列表. GitHub 项目链接:https://github.com/Kyubyong/nlp_tasks 本人从事自然语言处理任务(NLP)的研究已经有很长时间了,有一天我想到,我需要为庞大的 NLP领域做一个概览,我知道自己肯定不是想要一睹 NLP 任务的全貌的…