unicode汉字编码
原来我使用的一直是 \u4e00-\u9fa5 ,今天在匹配中文标点的时候匹配不上,就查了一下相关资料,原来unicode跟中文有关的范围还有好几个。
字符范围表
1.标准CJK文字
范围:\u3400-\u4DB5,\u4E00-\u9FA5,\u9FA6-\u9FBB,\uF900-\uFA2D,\uFA30-\uFA6A,\uFA70-\uFAD9 说明:一共有好几个范围,除 \u4e00-\u9fa5外 都不是很常用 参考地址:http://www.unicode.org/Public/UNIDATA/Unihan.html
2.全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母
范围:\uFF00-\uFFEF 参考地址:http://www.unicode.org/charts/PDF/UFF00.pdf
3.CJK部首补充
范围:\u2E80-\u2EFF 参考地址:http://www.unicode.org/charts/PDF/U2E80.pdf
4.CJK标点符号
范围:\u3000-\u303F 参考地址:http://www.unicode.org/charts/PDF/U3000.pdf
5.CJK笔划
范围:\u31C0-\u31EF 参考地址:http://www.unicode.org/charts/PDF/U31C0.pdf
6.康熙部首
范围:\u2F00-\u2FDF 参考地址:http://www.unicode.org/charts/PDF/U2F00.pdf
7.汉字结构描述字符
范围:\u2FF0-\u2FFF 参考地址:http://www.unicode.org/charts/PDF/U2FF0.pdf
8.注音符号
范围:\u3100-\u312F 参考地址:http://www.unicode.org/charts/PDF/U3100.pdf
9.注音符号(闽南语、客家语扩展)
范围:\u31A0-\u31BF 参考地址:http://www.unicode.org/charts/PDF/U31A0.pdf
10.日文平假名
范围:\u3040-\u309F 参考地址:http://www.unicode.org/charts/PDF/U3040.pdf
11.日文片假名
范围:\u30A0-\u30FF 参考地址:http://www.unicode.org/charts/PDF/U30A0.pdf
12.日文片假名拼音扩展
范围:\u31F0-\u31FF 参考地址:http://www.unicode.org/charts/PDF/U31F0.pdf
13.韩文拼音
范围:\uAC00-\uD7AF 参考地址:http://www.unicode.org/charts/PDF/UAC00.pdf
14.韩文字母
范围:\u1100-\u11FF 参考地址:http://www.unicode.org/charts/PDF/U1100.pdf
15.韩文兼容字母
范围:\u3130-\u318F 参考地址:http://www.unicode.org/charts/PDF/U3130.pdf
16.易经六十四卦象
范围:\u4DC0-\u4DFF 参考地址:http://www.unicode.org/charts/PDF/U4DC0.pdf
17.彝文音节
范围:\uA000-\uA48F 参考地址:http://www.unicode.org/charts/PDF/UA000.pdf
18.彝文部首
范围:\uA490-\uA4CF 参考地址:http://www.unicode.org/charts/PDF/UA490.pdf
19.盲文符号
范围:\u2800-\u28FF 参考地址:http://www.unicode.org/charts/PDF/U2800.pdf
20.CJK字母及月份
范围:\u3200-\u32FF 参考地址:http://www.unicode.org/charts/PDF/U3200.pdf
21.CJK特殊符号(日期合并)
范围:\u3300-\u33FF 参考地址:http://www.unicode.org/charts/PDF/U3300.pdf
22.装饰符号(非CJK专用)
范围:\u2700-\u27BF 参考地址:http://www.unicode.org/charts/PDF/U2700.pdf
23.杂项符号(非CJK专用)
范围:\u2600-\u26FF 参考地址:http://www.unicode.org/charts/PDF/U2600.pdf
24.中文竖排标点
范围:\uFE10-\uFE1F 参考地址:http://www.unicode.org/charts/PDF/UFE10.pdf
25.CJK兼容符号(竖排变体、下划线、顿号)
范围:\uFE30-\uFE4F 参考地址:http://www.unicode.org/charts/PDF/UFE30.pdf
改进后的匹配表达式
- [\u3400-\u4DB5\u4E00-\u9FA5\u9FA6-\u9FBB\uF900-\uFA2D\uFA30-\uFA6A\uFA70-\uFAD9\uFF00-\uFFEF\u2E80-\u2EFF\u3000-\u303F\u31C0-\u31EF] (注:这条基本能满足要求)
- [\u3400-\u4DB5\u4E00-\u9FA5\u9FA6-\u9FBB\uF900-\uFA2D\uFA30-\uFA6A\uFA70-\uFAD9\uFF00-\uFFEF\u2E80-\u2EFF\u3000-\u303F\u31C0-\u31EF\u2F00-\u2FDF\u2FF0-\u2FFF\u3100-\u312F\u31A0-\u31BF\u3040-\u309F\u30A0-\u30FF\u31F0-\u31FF\uAC00-\uD7AF\u1100-\u11FF\u3130-\u318F\u4DC0-\u4DFF\uA000-\uA48F\uA490-\uA4CF\u2800-\u28FF\u3200-\u32FF\u3300-\u33FF\u2700-\u27BF\u2600-\u26FF\uFE10-\uFE1F\uFE30-\uFE4F] (注:这是完整版本)
转自:http://ju.outofmemory.cn/entry/53571
unicode汉字编码的更多相关文章
- Unicode汉字编码表以及参考源码分享
1 Unicode编码表 Unicode只有一个字符集,中.日.韩的三种文字占用了Unicode中0x3000到0x9FFF的部分 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个 ...
- Unicode编码的熟悉与研究过程(内附全部汉字编码列表)
我有一个问题是:是不是会有个别汉字无法在Unicode下表示,这种情况下就不能完全显示了? 各种编码查询表:http://bm.kdd.cc/ ---------------------------- ...
- 简体和繁体加起来有六七万个汉字,所以Unicode只能排除一些几乎不用的汉字,Unicode编码的熟悉与研究过程(内附全部汉字编码列表)
我有一个问题是:是不是会有个别汉字无法在Unicode下表示,这种情况下就不能完全显示了? 各种编码查询表:http://bm.kdd.cc/ ---------------------------- ...
- 转:Unicode汉字编码表
转自:http://blog.csdn.net/huangxy10/article/details/10012119 Unicode汉字编码表 1 Unicode编码表 Unicode只有一个字符集 ...
- XCTF-你是谁
前期工作 查壳,无.运行 不知道有啥用,迷宫题? 逆向分析 文件结构 查看了一下主要逻辑在background中,因为MainActivity的setContentView是background.ba ...
- Unicode和汉字编码小知识
Unicode和汉字编码小知识 将汉字进行UNICODE编码,如:“王”编码后就成了“\王”,UNICODE字符以\u开始,后面有4个数字或者字母,所有字符都是16进制的数字,每两位表示的256以内的 ...
- UTF-8,Unicode,GBK,希腊字母读法,ASCII码表,HTTP错误码,URL编码表,HTML特殊字符,汉字编码简明对照表
UNICODE,GBK,UTF-8区别 UNICODE,GBK,UTF-8区别 简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式.而前面那 ...
- charCodeAt方法以及Unicode中文汉字编码范围
js的charCodeAt() 方法可返回指定位置的字符的 Unicode 编码.这个返回值是 0 - 65535 之间的整数. 在字符串 "Hello world!" 中,我们将 ...
- 汉字编码(【Unicode】 【UTF-8】 【Unicode与UTF-8之间的转换】 【汉字 Unicode 编码范围】【中文标点Unicode码】【GBK编码】【批量获取汉字UNICODE码】)
Unicode与UTF-8互转(C语言实现):http://blog.csdn.net/tge7618291/article/details/7599902 汉字 Unicode 编码范围:http: ...
随机推荐
- Codeforces 388A - Fox and Box Accumulation
388A - Fox and Box Accumulation 思路: 从小到大贪心模拟. 代码: #include<bits/stdc++.h> using namespace std; ...
- freemarker中对null值问题的处理
1. freemarker不支持null. 如果值为null会报错. 2.当值为null的处理 1)过滤不显示 Hello ${name!} 在属性后面加感叹号即可过滤null和空字符串 if和”?? ...
- ArcGIS Runtime数据制作教程
分类: ArcGIS Runtime 2012-04-20 22:25 879人阅读 评论(0) 收藏 举报 工具测试文档file工作c ArcGIS Runtime不能直接加载shp数据,或者mxd ...
- WPF PasswordBox.Password 的数据绑定
WPF的PasswordBox控件的Password属性不是依赖属性,无法直接进行数据绑定,为使其在MVVM模式中正常使用,可以为PasswordBox增加一个助手类,代码如下: 注:代码摘自:htt ...
- 1 python基础知识
一.python简介 编译型:将所有的源码先编译成机器型语言,并保存为二进制文件,然后一次性执行c c++ go swift 解释型:将代码一行一行边编译边解释python javascript ph ...
- linux中whereis、which、find、location的区别和用法
摘自:https://www.cnblogs.com/kex1n/p/5233821.html 1. find find是最常见和最强大的查找命令,你可以用它找到任何你想找的文件. find的使用格式 ...
- csp公共钥匙盒
1.公共钥匙盒 问题描述 有一个学校的老师共用N个教室,按照规定,所有的钥匙都必须放在公共钥匙盒里,老师不能带钥匙回家.每次老师上课前,都从公共钥匙盒里找到自己上课的教室的钥匙去开门,上完课后,再将钥 ...
- uinex 常用命令
删除文件夹实例:rm -rf /var/log/httpd/access将会删除/var/log/httpd/access目录以及其下所有文件.文件夹 删除文件使用实例:rm -f /var/log/ ...
- sql server server 2005任务导入导出功能选项没有的解决方法
出现这个问题主要原因是安装的sql server是Express版本的,或者已经安装了Express版本之后安装了企业版的.但是SQL图形管理工具仍然是SQL Server Manageme ...
- ThreadPoolExecutor类
首先分析内部类:ThreadPoolExecutor$Worker //Worker对线程和任务做了一个封装,同时它又实现了Runnable接口, //所以Worker类的线程跑的是自身的run方法 ...