参考:http://cache.baiducontent.com/c?m=9d78d513d9991cf00ffa940f47408f711925df252bd6a0502294ca5f92140d1a0771e3ca7c6251428d9a6b6770f4091dacae6965367337b7eddf893a82e8d36e78c83034015dd70149915feedc46549167cb04bfb81897adf04484afa28d804352ba44050d97f1fb1b5a03ca1ee71447f4a7e913025f61eafa3115e859003e9e5301e650f890256e7096f7ad0d10d42aa17611e1b834c07805b562b31f6c3003e012be52176072f74e54e2597841d7fc5d902d791c7df45fb3ce90eaf616df80bf76cbaf9cb82fe33fbb93bda72a1e2545fa53f8f6e0ec643f0315d9bc85568574e2a5fbba3ab24896560fe40325693093378382f904ae344df4912ebe7271783f0aa9ef29b92e2c3a2c&p=8562c54ad5c34bf543f6d52d02148e&newp=9f34c54ad5c34beb2ab1c02d021496231610db2151d4d4103ba6cf1c&user=baidu&fm=sc&query=/home/xdj/mtworkdir/irstlm/irstlm-master/scripts/build-lm.sh+-i+b.sb.cn+-t+./tmp+-p+-s+improved-knes&qid=b51a28c7000049a6&p1=1

http://blog.csdn.net/han_xiaoyang/article/details/10109053

http://www.leexiang.com/how-to-run-moses

http://wenku.baidu.com/link?url=QvfbyTEEdOIrtvnxuh4NZLA8UqMq4stOiq6TUafNNmyC4qBChQJ3CVHL4_23c-GI4tX9wlC85aSfLa1dxHNNTP1DPaLdgzQSXY-mTSU5n3q

在构造测试文本。

在终端文件夹~/mtworkdir/mosesdecoder/lixiang1中:

/home/xdj/mtworkdir/mosesdecoder/scripts/tokenizer/tokenizer.perl -l en <b.en> b.tok.en

/home/xdj/mtworkdir/mosesdecoder/scripts/tokenizer/tokenizer.perl -l en <b.cn> b.tok.cn

/home/xdj/mtworkdir/mosesdecoder/scripts/recaser/train-truecaser.perl --corpus b.tok.en --model b.model.en

/home/xdj/mtworkdir/mosesdecoder/scripts/recaser/train-truecaser.perl --corpus b.tok.cn --model b.model.cn

/home/xdj/mtworkdir/mosesdecoder/scripts/recaser/truecase.perl --model b.model.en<b.tok.en>b.true.en

/home/xdj/mtworkdir/mosesdecoder/scripts/recaser/truecase.perl --model b.model.cn<b.tok.cn>b.true.cn

/home/xdj/mtworkdir/mosesdecoder/scripts/training/clean-corpus-n.perl b.true cn en b.clean 1 80

80代表分词的个数。本数据可取30。

/home/xdj/mtworkdir/irstlm/irstlm-master/scripts/add-start-end.sh <b.clean.cn>b.sb.cn

/home/xdj/mtworkdir/irstlm/irstlm-master/scripts/add-start-end.sh <b.clean.en>b.sb.en

运行时报错如下:
   Set irstlm
  这里要声明IRSTLM的安装路径:

export IRSTLM=/home/xdj/mtworkdir/irstlm

/home/xdj/mtworkdir/irstlm/irstlm-master/scripts/build-lm.sh -i b.sb.cn -t ./tmp -p -s improved-kneser-ney -o b.lm.cn
/home/xdj/mtworkdir/irstlm/irstlm-master/scripts/build-lm.sh -i b.sb.en -t ./tmp -p -s improved-kneser-ney -o b.lm.en

/home/xdj/mtworkdir/irstlm/bin/compile-lm --\text=yes b.lm.cn.gz b.arpa.cn
/home/xdj/mtworkdir/irstlm/bin/compile-lm --\text=yes b.lm.en.gz b.arpa.en

关键参考:https://github.com/irstlm-team/irstlm/issues/2

/home/xdj/mtworkdir/mosesdecoder/bin/build_binary b.arpa.cn b.blm.cn

/home/xdj/mtworkdir/mosesdecoder/bin/build_binary b.arpa.en b.blm.en

测试一下训练的模型

echo "我 果断 放弃 了 那幅 图 。" | /home/xdj/mtworkdir/mosesdecoder/bin/query b.blm.en

nohup nice /home/xdj/mtworkdir/mosesdecoder/scripts/training/train-model.perl -cores 1-parallel -root-dir train -corpus /home/xdj/mtworkdir/mosesdecoder/lixiang1/b.clean -f cn -e en -alignment grow-diag-fial-and -reordering msd-bidirectional-fe -lm 0:3:/home/xdj/mtworkdir/mosesdecoder/lixiang1/b.blm.en:8 -enternal-bin-dir /home/xdj/mtworkdir/giza-pp/GIZA++-v2>&training.out&

cd mtworkdir/mosesdecoder/lixiang1/working

nohup nice /home/xdj/mtworkdir/mosesdecoder/scripts/training/train-model.perl -cores 1 -root-dir train-\corpus /home/xdj/mtworkdir/mosesdecoder/lixiang1/b.clean -f cn -e en-alignment grow-diag-fial-and-\reordering msd-bidirectional-fe-lm 0:3:/home/xdj/mtworkdir/mosesdecoder/lixiang1/b.blm.en:8 -external-bin-dir /home/xdj/mtworkdir/giza-pp/GIZA++-v2/giza >& training.out &

nohup nice /home/yaoqiang/moses/moses_binary/scripts/training/train-model.perl -cores 8 -root-dir train

-\   corpus /data/train_500m_data/all_movie_data_20130422.clean -f zh -e en

-alignment grow-diag-final-and

-\reordering msd- bidirectional-fe

-lm 0:3:/data/train_500m_data/all_movie_data_20130422.blm.en:8

-external-bin-\dir /home/yaoqiang/moses/moses_binary/training-tools/giza >& training_log.out &

  nohup nice /home/xdj/mtworkdir/mosesdecoder/scripts/training/train-model.perl

  -scripts-root-dir /home/user/moses/scripts/target/scripts-20100105-1600

  -root-dir /home/xdj/mtworkdir/mosesdecoder/lixiang1/working

  -corpus /home/xdj/mtworkdir/mosesdecoder/lixiang1/working/train -e eng -f chn

  -max-phrase-length 10

  -alignment-factors grow-diag-final-and

  -reordering msd-bidirectional-fe

  -lm 0:5:/home/xdj/mtworkdir/mosesdecoder/lixiang1/working/train.chn.gz

nohup nice /home/yaoqiang/moses/moses_binary/scripts/training/train-model.perl -cores 8 -root-dir train -\              corpus /data/train_500m_data/b.clean -f zh -e en -alignment grow-diag-final-and -\reordering msd-

bidirectional-fe -lm 0:3:/data/train_500m_data/all_movie_data_20130422.blm.en:8 -external-bin-\

dir /home/yaoqiang/moses/moses_binary/training-tools/giza >& training_log.out &

其中参数-cores 8将服务器中8个cpu全都用上了。

nohup nice /home/xdj/mtworkdir/mosesdecoder/scripts/training/train-model.perl -cores 1 -root-dir train --corpus /home/xdj/mtworkdir/mosesdecoder/lixiang/b.clean -f cn -e en --alignment grow-diag-fial-and-\reordering msd-bidirectional-fe --lm 0:3:/home/xdj/mtworkdir/mosesdecoder/lixiang/b.blm.en:8 -external-bin-dir /home/xdj/mtworkdir/external-nal>& training.out &

nohup nice /home/xdj/mtworkdir/mosesdecoder/scripts/training/train-model.perl -cores 1 -root-dir train --corpus /home/xdj/mtworkdir/mosesdecoder/lixiang1/b.clean -f cn -e en --alignment grow-diag-fial-and-\reordering msd-bidirectional-fe --lm 0:3:/home/xdj/mtworkdir/mosesdecoder/lixiang1/b.blm.en:8 -external-bin-dir /home/xdj/mtworkdir/external-nal &>training.out&

echo "我 果断 放弃 了 那幅 图 。" | /home/xdj/mtworkdir/mosesdecoder/bin/moses -f /home/xdj/mtworkdir/mosesdecoder/lixiang1/working/train/model/moses.ini >out

遇到lm/read_arpa.cc:151 in void lm::PositiveProbWarn::Warn(float) threw > FormatLoadException'. > Positive log probability 2.40965e-07 in the model. This is a bug in > IRSTLM; you can set config.positive_log_probability = SILENT or pass > -i to build_binary to substitute 0.0 for the log probability. Error > in the 3-gram at byte 195895800 Byte: 195895800 File: 2000.arpa.ar

解决:/home/xdj/mtworkdir/mosesdecoder/bin/build_binary -i b.arpa.en b.blm.en

调优:

/home/xdj/mtworkdir/mosesdecoder/scripts/tokenizer/tokenizer.perl -l en <btune.en> btune.tok.en

/home/xdj/mtworkdir/mosesdecoder/scripts/tokenizer/tokenizer.perl -l en <btune.cn> btune.tok.cn

/home/xdj/mtworkdir/mosesdecoder/scripts/recaser/train-truecaser.perl --corpus btune.tok.en --model btune.model.en
/home/xdj/mtworkdir/mosesdecoder/scripts/recaser/train-truecaser.perl --corpus btune.tok.cn --model btune.model.cn

/home/xdj/mtworkdir/mosesdecoder/scripts/recaser/truecase.perl --model btune.model.en<btune.tok.en>btune.true.en

/home/xdj/mtworkdir/mosesdecoder/scripts/recaser/truecase.perl --model btune.model.cn<btune.tok.cn>btune.true.cn

nohup nice /home/xdj/mtworkdir/mosesdecoder/scripts/training/mert-moses.pl btune.true.cn btune.true.en /home/xdj/mtworkdir/mosesdecoder/lixiang1/working/train/model/moses.ini --mertdir /home/xdj/mtworkdir/mosesdecoder/bin/ &>mert.out&

运行:

/home/xdj/mtworkdir/mosesdecoder/bin/moses -f /home/xdj/mtworkdir/mosesdecoder/lixiang1/working/train/model/moses.ini </home/xdj/mtworkdir/mosesdecoder/lixiang1/working/in > out

Moses训练与测试的更多相关文章

  1. Caffe初试(二)windows下的cafee训练和测试mnist数据集

    一.mnist数据集 mnist是一个手写数字数据库,由Google实验室的Corinna Cortes和纽约大学柯朗研究院的Yann LeCun等人建立,它有60000个训练样本集和10000个测试 ...

  2. caffe学习系列(2):训练和测试自己的图片

    参考:http://www.cnblogs.com/denny402/p/5083300.html 上述主要介绍的是从自己的原始图片转为lmdb数据,再到训练.测试的整个流程(另外可参考薛开宇的笔记) ...

  3. windows+caffe(四)——创建模型并编写配置文件+训练和测试

    1.模型就用程序自带的caffenet模型,位置在 models/bvlc_reference_caffenet/文件夹下, 将需要的两个配置文件,复制到myfile文件夹内 2. 修改solver. ...

  4. Caffe学习系列(12):训练和测试自己的图片

    学习caffe的目的,不是简单的做几个练习,最终还是要用到自己的实际项目或科研中.因此,本文介绍一下,从自己的原始图片到lmdb数据,再到训练和测试模型的整个流程. 一.准备数据 有条件的同学,可以去 ...

  5. 不要怂,就是GAN (生成式对抗网络) (四):训练和测试 GAN

    在 /home/your_name/TensorFlow/DCGAN/ 下新建文件 train.py,同时新建文件夹 logs 和文件夹 samples,前者用来保存训练过程中的日志和模型,后者用来保 ...

  6. 转 Caffe学习系列(12):训练和测试自己的图片

    学习caffe的目的,不是简单的做几个练习,最终还是要用到自己的实际项目或科研中.因此,本文介绍一下,从自己的原始图片到lmdb数据,再到训练和测试模型的整个流程. 一.准备数据 有条件的同学,可以去 ...

  7. pytorch: 准备、训练和测试自己的图片数据

    大部分的pytorch入门教程,都是使用torchvision里面的数据进行训练和测试.如果我们是自己的图片数据,又该怎么做呢? 一.我的数据 我在学习的时候,使用的是fashion-mnist.这个 ...

  8. 机器学习入门06 - 训练集和测试集 (Training and Test Sets)

    原文链接:https://developers.google.com/machine-learning/crash-course/training-and-test-sets 测试集是用于评估根据训练 ...

  9. 机器学习基础:(Python)训练集测试集分割与交叉验证

    在上一篇关于Python中的线性回归的文章之后,我想再写一篇关于训练测试分割和交叉验证的文章.在数据科学和数据分析领域中,这两个概念经常被用作防止或最小化过度拟合的工具.我会解释当使用统计模型时,通常 ...

随机推荐

  1. UI第十四节——UIAlertController

    - (void)viewDidLoad {    [super viewDidLoad];        UIButton *alertBtn = [UIButton buttonWithType:U ...

  2. C/C++ 静态链接库(.a) 与 动态链接库(.so)

    平时我们写程序都必须 include 很多头文件,因为可以避免重复造轮子,软件大厦可不是单靠一个人就能完成的.但是你是否知道引用的那些头文件中的函数是怎么被执行的呢?这就要牵扯到链接库了! 库有两种, ...

  3. jenkins自动化构建iOS应用配置过程中遇到的问题

    最近配置jenkins来自动构建iOS应用,期间遇上不少问题.在这里分享给大家,也给自己留个底,方便下次解决问题. 首先说明下基本情况,我们因为部署jenkins的机器不是Mac,所以不能安装Xcod ...

  4. css如何实现水平居中呢?css实现水平居中的方法?

    面试中遇到的一个问题:如何让css实现水平居中?下面来看一下哪些方法能实现水平居中. 首先分两种情况,行内元素还是块级元素.然而块级元素又分为定宽块状元素和不定款块状元素.先来看下行内元素如何水平居中 ...

  5. iOS开发——高级篇——iOS中如何选择delegate、通知、KVO(以及三者的区别)

      在开发IOS应用的时候,我们会经常遇到一个常见的问题:在不过分耦合的前提下,controllers[B]怎么进行通信.在IOS应用不断的出现三种模式来实现这种通信:1委托delegation2通知 ...

  6. Ubuntu16.04 安装MATALAB R2015b教程

    1.安装 将镜像文件内文件解压出来,添加执行权限,否则执行 ./install指令会出错 chmod -R 777 MATALAB 执行如下指令 ./install 2.填入补丁内的密匙 在Matla ...

  7. 【YEOMAN】执行yo命令,报EACCES: permission denied, mkdir '/root/.config/configstore'

    基础环境:CentOS7.Nodejs6.0之上,yo:1.8.4 在执行yo初始化webapp时,报错,错误内容如下: Error: EACCES: permission denied, mkdir ...

  8. .NET Lambda

    Lambda概述      lambda 表达式是一个可用于创建委托或表达式树类型的匿名函数. 通过使用 lambda 表达式,可以可作为参数或返回编写本地函数,该函数调用的值. Lambda 表达式 ...

  9. JS函数节流

    背景:在前端开发中,有时会为页面绑定resize事件,或为一个页面元素拖拽事件(其核心就是绑定mousemove)在一个正常操作中也有可能在一个短时间内触发非常多次事件绑定程序,而DOM操作是很消耗性 ...

  10. 登录服务器windows2008出现:远程桌面服务当前正忙,因此无法完成您尝试执行的任务。(或者出现黑屏界面)

    问题:有段时间登录服务器总是提示:远程桌面服务当前正忙,因此无法完成您尝试执行的任务. 在微软找到的原因是:Csrss.exe 进程和某些应用程序 (例如,Microsoft Excel 或 Micr ...