本文是在Niutrans论坛中的系列教程中总结出来的. 1.语料预处理 预处理的结果是生成双语分词之后的文件,该步需要注意的是对规则短语,比如数字.日期.网址等,进行泛化处理.可以用正则方法或者其它方法.注意日期中的点和外文人名中的点和网址中的点和句末标点要区分开来,数字和日期也要区分开来. 其中变化比较大的,比较难处理的,应该是中文的日期,因为它的格式比较多变.从文本中抽取出来中文日期时间(或者更进一步的转化成标准的时间格式),有一个办法,就是用trie树进行抽取,相较于写一大堆翻乱的正则表达