[Lua]string与中文
参考链接:
https://baike.baidu.com/item/%E5%AD%97%E7%AC%A6%E7%BC%96%E7%A0%81/8446880?fr=aladdin#7
http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html
http://blog.csdn.net/r0ck_y0u/article/details/51883955
一.字符编码
字符编码的发展史:ASCII->Unicode->UTF-8
1.ASCII:ASCII码可以表示所有的英语字符(字母、数字、标点符号等)。ASCII码是7位编码(0-127),但由于计算机基本处理单位为字节(1字节=8位),所以一个ASCII字符占一个字节。
2.Unicode:因为一个ASCII字符只能表示256个字符,显然是存在着局限的(如不能用来表示中文)。而且不同的语言有不同的字符,为了让世界上所有的字符都有一个唯一的编码值(如果一个编码值对应多个字符,就会出现歧义),就出现了Unicode码。Unicode码可以容纳100多万个符号,每个符号的编码都不一样。但是Unicode码的缺点是效率不高,比如UCS-4(Unicode的标准之一)规定用4个字节存储一个符号,那么每个英文字母前都必然有三个字节是0,原本只需1个字节现在却用了4个字节,这对存储和传输来说都很耗资源。
3.UTF-8:为了提高Unicode的编码效率,于是就出现了UTF-8编码。UTF-8可以根据不同的符号自动选择编码的长短。在UTF-8中,一个英文占1个字节,一个中文占3个字节。
二.string库
相关api:http://cloudwu.github.io/lua53doc/manual.html#pdf-string.sub
在lua中,string库都是针对单字节字符编码的。在UTF-8中,因为英语字符都是单字节字符,所以使用string库处理英语字符是没有问题的;但是中文字符是多字节字符,如果使用string库去处理是不行的。
--UTF-8编码,一个中文占3个字节
local a1 = "你好啊a" print(string.byte(a1,,))--第1到第4个字节
print(string.len(a1))--字节总数
local startIndex, endIndex = string.find(a1, "你好")
print(startIndex .. " " .. endIndex)--第1到第6个字节 print("----------------------------------------------------")
local test = "泰"
local test2 = "法?" print(string.len(test))
print(string.byte(test,,))
print(string.byte(test2,,)) --string.gsub的第二个参数为正则表达式,?表示匹配0个至1个
--字节230179176中的230179被替换成989898
local str = string.gsub(test, test2, function()
print("gsub success!")
return "bbb"
end)
print(str)
print(string.byte(str,,))
print(string.byte("b",,))
输出如下:

三.中文处理
先来测试一下中文是怎样匹配的:
--为了方便输出中文,这里使用ANSI编码
--在ANSI编码中,1个中文占2个字节
local test = "泰ab"
local result print(string.byte(test,,))--泰:204169 a:97 b:98
print(type(string.byte(test,,)))--数字 --string.gsub 逐字节匹配
print("1.")
result = string.gsub(test, "[204169]", "c")
print(result)--[204169]:2,0,4,1,6,9的集合,因此匹配失败 print("2.")
result = string.gsub(test, "[\204169]", "c")
print(result)
print(string.byte(result,,))--第1个字节204匹配成功
print(string.byte("゛",,))--c:99 ゛:16997 b:98 print("3.")
result = string.gsub(test, "[\204\169]", "c")
print(result)--匹配成功2次 print("4.")
result = string.gsub(test, "[\204][\169]", "c")
print(result)--匹配成功1次,将原字符串中的中文替换了
输出如下:

UTF8的编码规则:
1.字符的第一个字节范围:(0-127)、(194-244)
2.字符的第二个字节及以后范围(针对多字节编码,如汉字):(128-191)
3.(192,193和245-255)不会出现在UTF8编码中
根据以上规则就可以得出处理中文的方法了:
--获取字符数
function GetWordCount(str)
local _,count = string.gsub(str, "[^\128-\193]", "")
return count
end --将字符串转为table
function GetWordTable(str)
local temp = {}
for uchar in string.gmatch(str, "[%z\1-\127\194-\244][\128-\191]*") do
temp[#temp+] = uchar
end
return temp
end --utf8
local test = "泰ab好了." print(GetWordCount(test))
local testT = GetWordTable(test) --%z:匹配0 *:表示0个至任意多个
for i=,#testT do
print(testT[i])
end
四.敏感字处理
敏感字的处理主要体现在取名、聊天上,如果字符串中含有敏感字,则需要将其替换成“*”。一开始我使用的string.gsub方法,但是发现敏感字中有不少是带有特殊符号,从而使整个字符串变成了一个正则表达式了,发生了正则匹配的错误,而正确的做法应该是直接跟敏感字进行对比。后来采用的是string.find方法,因为它可以关闭正则匹配。
local sensitiveWordConfig = {"法?"};
function GetWordCount(str)
local _, count = string.gsub(str, "[^\128-\193]", "")
return count;
end
--内部接口:将字符串中的敏感字替换成*(替换一个)
function ReplaceSensitiveWord(originStr, sensitiveWord)
local resultStr = originStr;
--1:从索引1开始搜索 true:关闭模式匹配
local startIndex, endIndex = string.find(originStr, sensitiveWord, , true);
if (startIndex and endIndex) then
local strLen = string.len(originStr);
local maskWordCount = GetWordCount(sensitiveWord);
local maskWord = "";
for i=,maskWordCount do
maskWord = maskWord .. "*";
end
-- print(string.format("startIndex: %d endIndex: %d", startIndex, endIndex));
-- print(string.format("strLen: %s maskWord: %s", strLen, maskWord));
if (startIndex == ) then
resultStr = maskWord .. string.sub(originStr, endIndex + , -);
elseif (endIndex == strLen) then
resultStr = string.sub(originStr, , startIndex - ) .. maskWord;
else
local str = string.sub(originStr, ,startIndex - );
local str2 = string.sub(originStr, endIndex + , -);
resultStr = str .. maskWord .. str2;
end
end
return resultStr;
end
--内部接口:将字符串中的敏感字替换成*(替换所有)
function ReplaceSensitiveWordAll(originStr, sensitiveWord)
local str = originStr;
local str2 = ReplaceSensitiveWord(originStr, sensitiveWord);
while (str ~= str2) do
str = str2;
str2 = ReplaceSensitiveWord(str2, sensitiveWord);
end
return str2;
end
--内部接口:是否有该敏感字
function HasSensitiveWord(originStr, sensitiveWord)
local startIndex, endIndex = string.find(originStr, sensitiveWord, , true);
if (startIndex and endIndex) then
-- print("敏感字:" .. sensitiveWord);
return true;
else
return false;
end
end
--外部接口:敏感字替换
function ReplaceMaskWord(content)
for k,v in pairs(sensitiveWordConfig) do
content = ReplaceSensitiveWordAll(content, v);
end
return content;
end
--外部接口:是否有敏感字
function HasMaskWord(content)
for k,v in pairs(sensitiveWordConfig) do
if (HasSensitiveWord(content, v)) then
return true;
end
end
return false;
end
print(ReplaceSensitiveWord("法?123法?", "法?"));
print(ReplaceSensitiveWordAll("法?123法?", "法?"));
print(HasSensitiveWord("12中法?3文", "法?"));
print(ReplaceMaskWord("1法?法?2"));
print(HasMaskWord("1法?法?2"));

[Lua]string与中文的更多相关文章
- Lua string库整理
string库提供了字符串处理的通用函数. 例如字符串查找.子串.模式匹配等. 当在 Lua 中对字符串做索引时,第一个字符从 1 开始计算(而不是 C 里的 0 ). 索引可以是负数,它指从字符串末 ...
- Lua 5.2 中文参考手册
闲来无事,发现Lua更新到了5.2.2,参考手册也更到了5.2,在网上发现只有云风翻译的5.1版,花了几天时间翻译了一些. 参考手册有点长,又要随时修改,所以在github上建了项目,有需要的朋友可以 ...
- lua string.byte怎么判断是中文还是别的
string.byte(char)>127是中文,string.sub(s,i,i+2),占两个字节,中文 string.byte(char)<=127是普通字符,咱一个字节
- lua中的中文乱码
最近在用lua, 发现一个有点意思的槽点啊-____-! 那就是lua貌似会使用系统所用的字符集. 具体点说, 就是在windows上, 它会使用cp936来表示代码中的中文. 来个例子: print ...
- (转) Lua string 操作函数
本文转自: http://www.cnblogs.com/newlist/p/3649388.html table.keys 返回指定表格中的所有键. 格式: keys = table.keys(表格 ...
- lua string函数
lua的string函数: 参数中的index从1开始,负数的意义是从后开始往前数,比如-1代表最后一个字母 对于string类型的值,可以使用OO的方式处理,如string.byte(s.i)可以被 ...
- java 读取文件到String(解决中文乱码)
在改写V&View(维视)时用到了文件管理,需要从html文档读取字符串,可是一直出现中文乱码,一直解决不了.而且很是意外,我在本地运行代码时就能正常读取中文,当放到tomcat上时全是乱码, ...
- lua string 库
--lua中字符串索引从前往后是1,2,……,从后往前是-1,-2……. --string库中所有的function都不会直接操作字符串,只返回一个结果. ---------------------- ...
- lua string.sub截取中英文
cocos2dx 2.x环境,要做一个截取很长的字符串的前100个字符显示的小功能. PC环境ok,出了ios包发现有时候这个字符串会显示不出,猜测了下可能是跟中文字在lua里每个字占3个字符有关,举 ...
随机推荐
- 升级ambari、HDP版本(ambari 2.1升级到2.4、HDP2.3升级到2.5)
转载自:http://blog.csdn.net/levy_cui/article/details/52461377 官方升级版本说明 http://docs.hortonworks.com/HDPD ...
- 禁止ajax访问shiro管理的登录页面
在使用shiro的时候,对于用户权限的管理,相信很多人都已经很熟悉了.今天,我这里简单的记录一下我自己调试过程中遇到的问题.主要是登录的操作,禁止通过ajax的方式进行访问. shiro中,登录过程拒 ...
- 协程与多路io复用epool关系
linux上其实底层都基于libevent.so模块实现的,所以本质一样 gevent更关注于io和其它 epool只是遇到io就切换,而gevent其它等待也切换
- 内存共享【Delphi版】
一.原理 通过使用“内存映射文件”,实现内存共享 二.主要操作 共享内存结构: PShareMem = ^TShareMem; TShareMem = Record id:string ...
- Python Flask 构建微电影视频网站
前言 学完本教程,你将掌握: 1.学会使用整形.浮点型.路径型.字符串型正则表达式路由转化器 2.学会使用post与get请求.上传文件.cookie获取与相应.404处理 3.学会适应模板自动转义. ...
- linux的系统组成和计算机组成原理,linux常用操作
Linux入门 linux简介 学习目的:linux服务器操作系统稳定长期运行,python,pycharm装于linux上 linux系统组成 应用软件:调用系统软件接口 linux操作系统分两 ...
- jenkins 邮件配置一
jenkins默认的邮件通知 我先讲解下,默认的. jenkins默认就有一个邮件通知,只是太简单的,不能个性化或者说定制化. 设置系统管理员邮件地址 邮件通知 ①SMTP服务器:如果你使用的是公司邮 ...
- CentOS 7下NFS Server作rootfs时的兼容性问题
最近新装CentOS 7,发现原先CentOS 6.3下可用的一块ARM Dev board不能用了,表现为VFS mount挂载rootfs失败. 使用WireShark发现,服务器对client发 ...
- DS树+图综合练习--构建邻接表
题目描述 已知一有向图,构建该图对应的邻接表.邻接表包含数组和单链表两种数据结构,其中每个数组元素也是单链表的头结点,数组元素包含两个属性,属性一是顶点编号info,属性二是指针域next指向与它相连 ...
- ALGO-115_蓝桥杯_算法训练_和为T(枚举)
问题描述 从一个大小为n的整数集中选取一些元素,使得它们的和等于给定的值T.每个元素限选一次,不能一个都不选. 输入格式 第一行一个正整数n,表示整数集内元素的个数. 第二行n个整数,用空格隔开. 第 ...