0、踩坑背景

仍然是torch-rnn/LanguageModel.lua文件中的一些问题,仍然是这个狗血的LM:encode_string函数:

function LM:encode_string(s)
local encoded = torch.LongTensor(#s)
for i = , #s do
local token = s:sub(i, i)
local idx = self.token_to_idx[token]
assert(idx ~= nil, 'Got invalid idx')
encoded[i] = idx
end
return encoded
end

上篇文章Torch-RNN运行过程中的坑 [1](读取Lua非空table,size为0)就在这部分测试table是不是空,填了个坑。

在填坑过程中,发现for...in pair table打印出的字典是没有问题的,但是上述encode_string函数的token竟然是乱码,每次从字典table中命中不了,每次返回的都是nil。

查了console编码,是没有问题的(UTF-8)。这是咋回事哩?

1、Lua中的string sub函数切分中文

我们捋一下整个工程,

第一步使用preprocess.py对文本文件转为json和hdf5文件,值得一提的是,json中使用Unicode存储字典文件;

第二步train.lua中对json和hdf5文件进行训练;

第三步sample.lua中对checkpoint和start_text进行抽样。

由于是对start_text进行character拆分时乱码,我们肯定首先对encode_string函数中的s:sub(i, i)函数进行debug。

这个sub函数首先在lua console中看看它到底返回的是啥:

> s1='a1b2c3'

> print(s1:sub(,))
a --lua中从1开始计数,和java substring和python slice不同的是,start/end index它都包含
> print(s1:sub(,))
a1
> print(s1:sub(,))
b2c3 > print(s1:sub(,))
b2c3 --lua还是比较智能,越界也没有报错,比java更脚本化一些
> print(s1:sub(,))
a1b2c3 > print(s1:sub(-,))
--脚本语言都有的负数下标

大概有个了解,就是java中的substring嘛,有些细节不一样。真的是这样吗?见下:

> s2='1a新华'
> print(s2:sub(,))
1a --前俩字母,正常
> print(s2:sub(,))
1a --WTF?这就尴尬了,我的汉字呢
> print(s2:sub(,))
1a --???
> print(s2:sub(,))
1a新 --???一个“新”字占了3个字节
> print(s2:sub(,))

> print(s2:sub(,))

> print(s2:sub(,))

> print(s2:sub(,))
新华 --???“华”字也是占了三个字节
> print(s2:sub(,))
新华
> print(string.len(s2))
--这。。。正常length 4的是8?

这“1a新华”四个字的length Lua给我输出个8,让我这个java选手情何以堪。。。。

好奇害死猫,尝试在python console下,也输出的是8,看来此处必有蹊跷。嗯。

2、各种字符编码的区别与联系?

一个汉字占了3个字符,学过计组的同学醒醒了,当年老师敲黑板的重点就是这个。。。

这里首先抛出ruanyf十年前写的一篇的浅显易懂的文章 《字符编码笔记:ASCII,Unicode和UTF-8》。太通俗易懂了,我这里简要搬运下。。。

总结一下考点:

首先,ASCII码是1byte,8bit,最多可以表示2^8=256种字符,表示英文字符绰绰有余。

但是,以中文为代表的各国优秀博大精深语言(文中说汉字有10W+),渐渐走进了国际化道路,当年定制ASCII码的同志们发现1byte根本表示不了这么多字符。

于是,我国1980年推出了简体中文GB2312(1995年推出的GBK的前身),两个字节byte表示一个汉字。

再后来,1990年,各国都开发了各自的编码,这时候一个伟大的联盟组织、非营利机构统一码联盟承担了Unicode(万国码、国际码、统一码、单一码)的标准制定,该机构致力于让Unicode方案替换既有的字符编码方案。每个国家的字符都有对应的编码区间,终于实现了同一个世界,同一套编码。。。

但是Unicode还是有些小瑕疵,没有大量推广使用,这时候UTF-8左右Unicode的一种实现方式,闪亮登场。

文中还有一些大小端、BIG-5、UTF-8 BOM方面的考点,感兴趣的同学可以点链接。

3、有点跑题,咱们的问题怎么解决,切分中文string乱码?

如果单纯的string全都是中文,那还好办了,直接三个三个切分就成,如果混合字符串呢?例如“1a新华”这样的。

这时候就要对编码区间进行判断了。

function LM:encode_string(s)
local encoded = torch.LongTensor(#s)
local i =
-- cause 中文在UTF8中存储占位3个字节,而英文仍然是1个字节[ascii]
for token in s.gmatch(s, "[%z\1-\127\194-\244][\128-\191]*") do
local idx = self.token_to_idx[token]
assert(idx ~= nil, 'Got invalid idx')
encoded[i] = idx
i = i+
end
return encoded
end

按照博文lua 含中文的字符串处理--分离字符、计算字符数、截取指定长度 中对regex的解释是:

  1. --[[
  2. UTF8的编码规则:
  3. 1. 字符的第一个字节范围: 0x00—0x7F(0-127),或者 0xC2—0xF4(194-244); UTF8 是兼容 ascii 的,所以 0~127 就和 ascii 完全一致
  4. 2. 0xC0, 0xC1,0xF5—0xFF(192, 193 和 245-255)不会出现在UTF8编码中
  5. 3. 0x80—0xBF(128-191)只会出现在第二个及随后的编码中(针对多字节编码,如汉字)
  6. ]]

这样就不会出现问题了~

Torch-RNN运行过程中的坑 [2](Lua的string sub函数,读取中文失败,乱码?)的更多相关文章

  1. Torch-RNN运行过程中的坑 [0](一些基础概念)

    0.Lua & LuaJIT简介 Lua 是一种轻量小巧的脚本语言,用标准C语言编写并以源代码形式开放, 其设计目的是为了嵌入应用程序中,从而为应用程序提供灵活的扩展和定制功能. Lua 是巴 ...

  2. Torch-RNN运行过程中的坑 [1](读取Lua非空table,size为0)

    0.踩坑背景 执行Torch-RNN的时候,在LanguageModel.lua中的encode_string函数中,对start_text的各个character进行id映射编码,实现功能类似“北京 ...

  3. HOWTO - Basic MSI安装包在安装运行过程中如何获取完整源路径

    有朋友问到如何在一个Windows Installer安装包中获取安装包源路径,就是在安装包运行过程中动态获取*.msi所在完整路径. 这个问题分两类,如果我们的安装包只是一个*.msi安装文件,那么 ...

  4. ionic 运行过程中动态切换API服务器地址

    ionic 运行过程中动态切换API服务器地址 keywords: ionic,phonegap,cordova,网络制式,动态切换,变更,API,服务器地址,$resource,localstora ...

  5. (转)在.NET程序运行过程中,什么是堆,什么是栈?什么情况下会在堆(栈)上分配数据?它们有性能上的区别吗?“结构”对象可能分配在堆上吗?什么情况下会发生,有什么需要注意的吗?

    转自:http://www.cnblogs.com/xiaoyao2011/archive/2011/09/09/2172427.html 在.NET程序运行过程中,什么是堆,什么是栈? 堆也就是托管 ...

  6. Jmeter运行过程中如何让Fiddler同时可以抓获到服务器的应答报文

    在默认情况下,Jmeter运行过程中,Fiddler是抓不到对应的应答报文的. 但是,在某些时候,我们希望分析Jmeter执行失败的原因,想了解Jmeter获取到的应答报文是否有问题,就需要同服务器返 ...

  7. 程序运行过程中遇到“ORA-03114: not connected to ORACLE”的问题解决

    c#,winform程序,数据批量入oracle库时用到DataAdaper的.FillSchema函数,如:da.FillSchema(dt2, SchemaType.Mapped); 程序运行一段 ...

  8. C#中StreamReader读取中文出现乱码

    转自yhrun原文C#中StreamReader读取中文出现乱码 原因是自Windows 2000之后的操作系统在文件处理时默认编码采用Unicode 所以.NET文件的默认编码也是Unicode.除 ...

  9. [转]C#中StreamReader读取中文出现乱码

    摘自:C#中StreamReader读取中文出现乱码 原因是自Windows 2000之后的操作系统在文件处理时默认编码采用Unicode所以.NET文件的默认编码也是Unicode.除非另外指定,S ...

随机推荐

  1. sprintf、vsprintf、sprintf_s、vsprintf_s、_snprintf、_vsnprintf、snprintf、vsnprintf 函数辨析

    看了题目中的几个函数名是不是有点头晕?为了防止以后总在这样的细节里纠缠不清,今天我们就来好好地辨析一下这几个函数的异同. 实验环境: Windows下使用VS2017Linux下使用gcc4.9.4 ...

  2. 七个你无法忽视的Git使用技巧

    与其他技术相比,Git应该拯救了更多开发人员的饭碗.只要你经常使用Git保存自己的工作,你就一直有机会可以将代码退回到之前的状态,因此就可以挽回那些你深夜里迷迷糊糊犯下的错误. 尽管这么说,Git的命 ...

  3. unity3d中布娃娃系统

    原地址:http://blog.csdn.net/pizi0475/article/details/9771941 转自: http://forum.mirax.com.tw/unity/viewto ...

  4. Codeforces Round #177 (Div. 2) 题解

    [前言]咦?如今怎么流行打CF了?于是当一帮大爷在执着的打div 1的时候,我偷偷的在刷div 2.至于怎么决定场次嘛.一般我报一个数字A,随便再拉一个人选一个数字B.然后開始做第A^B场.假设认为机 ...

  5. 百度地图和高德地图坐标系的互相转换 四种Sandcastle方法生成c#.net帮助类帮助文档 文档API生成神器SandCastle使用心得 ASP.NET Core

    百度地图和高德地图坐标系的互相转换   GPS.谷歌.百度.高德坐标相互转换 一.在进行地图开发过程中,我们一般能接触到以下三种类型的地图坐标系: 1.WGS-84原始坐标系,一般用国际GPS纪录仪记 ...

  6. centos 7 生成文件名乱码的问题如何解决?

    在应用脚本生成文件时,发现生成的文件名称出现乱码(似麻将一样).刚开始找来找去,以为是复制粘贴的原因,复制时复制了特殊字符导致的,结果修改源文件后发现生成的文件名还是乱码.后来在执行脚本时,提示&qu ...

  7. pdo连接mysql操作方法

    PDO常用方法: PDO::query()主要用于有记录结果返回的操作(PDOStatement),特别是select操作. PDO::exec()主要是针对没有结果集合返回的操作.如insert,u ...

  8. Android Studio公布到Jcenter

    1.前言 拥抱开源.热爱开源,将我们觉得不错的代码开源到gihtub.将我们的库公布到jcenter\mevan等. 2.准备工作 2.1 准备 申请仓库账号 注意model为android libr ...

  9. Limu:JavaScript的那些书

    博主说:本博客文章来源包括转载,翻译,原创,且在文章内均有标明.鼓励原创,支持创作共享,请勿用于商业用途,转载请注明文章链接.本文链接:http://www.kein.pw/?p=50 去年(2012 ...

  10. Registers

    https://github.com/JesusFreke/smali/wiki/Registers Introduction In dalvik's bytecode, registers are ...