链接:http://www.doc88.com/p-801578373970.html

一.英文

Unicode范围: 0041-005A, 0061-007A (若含数字与符号,则为0021-007E)

locale编码: ANSI

1. ANSI
HTML charset: us-ascii
RTF charset: 0
编码方式: 41-5A, 61-7A (若含数字与符号,则为21-7E)

二.中文
Unicode范围: 2E80-2FDF, 3400-4DBF, 4E00-9FFF
备注:F900-FAFF的相容型中文字码,应转至一般的中文字码处理,31A0-31BF则为注音符号表
locale编码: 繁体中文有BIG5, CNS, 简体中文为GB

1.BIG5
HTML charset: big5
RTF charset: 136
编码方式: 双byte语系, byte 1范围为A1-FE, byte 2范围为40-7E, A1-FE
备注:big5+目前几乎无人使用,故省略不提

2.CNS
HTML charset: 无 (应为euc-tw或iso-2022-cn, 但IE并不支援)
RTF charset: 无
编码方式: 多byte语系
byte 1范围为A1-FE时为2 byte编码, byte 2范围为A1-FE
byte 1为8E时, 为4 byte编码, byte 2范围为A1-B0, byte 3与byte 4范围均为A1-FE
备注: 4 byte编码时, byte 2为A1与2 byte编码之字码相同 (即第1字面), CNS目前只使用了7个字面, 因此byte 2实际使用范围为A1-A7, 早期第15字面有放了一些字码, 后来都已编入前7个字面内了

3.GB
HTML charset: gb2312, gbk, euc-cn
RTF charset: 134
编码方式: 双byte语系, byte 1范围为81-FE, byte 2范围为40-7E, 80-FE

三.日文
Unicode范围: 3040-30FF, 31F0-31FF(混用中文字码)
备注:FF00-FFEF有半形日文,应转至一般日文字码处理
locale编码: Shift-JIS, EUC-JP

1.Shift-JIS
HTML charset: shift_jis, x-sjis, iso-2022-jp
RTF charset: 128
编码方式: 单/双byte语系
byte 1范围为A1-DF时为1 byte编码
byte 1范围为81-9F, E0-EF时为2 byte编码, byte 2范围为40-7E, 80-FC

2.EUC-JP
HTML charset: euc-jp, x-euc-jp
RTF charset: 无
编码方式: 多byte语系
byte 1为8E时, 为2 byte编码, byte 2范围为A1-DF
byte 1范围为A1-FE时, 为2 byte编码, byte 2范围为A1-FE
byte 1为8F时为3 byte编码, byte 2与byte 3范围均为A1-FE
备注: IE不支援3 byte编码部份

四.韩文
Unicode范围: 1100-11FF, 3130-318F, AC00-D7AF(混用中文字码)
备注:FF00-FFEF有半形韩文,应转至一般韩文字码处理
locale编码: Johab, EUC-KR

1.Johab
HTML charset: johab
RTF charset: 130
编码方式: 双byte语系
byte 1范围为84-D3时, byte 2范围为41-7E, 81-FE
byte 1范围为D8-DE, E0-FE时, byte 2范围为31-7E, 91-FE

2.EUC-KR
HTML charset: euc-kr, iso-2022-kr
RTF charset: 129
编码方式: 双byte语系, byte 1范围为A1-FE, byte 2范围为A1-FE

五.阿拉伯文
Unicode范围: 0600-06FF, 0750-077F
locale编码: Windows

1.Windows
HTML charset: windows-1256
RTF charset: 178
编码方式: 1 byte语系

六.泰文
Unicode范围: 0E00-0E7F
locale编码: Windows

1.Windows
HTML charset: windows-874
RTF charset: 222
编码方式: 1 byte语系

七.俄文
Unicode范围: 0400-052F (西里尔文)
locale编码: Windows, ISO, KOI8-U, KOI8-R

1.Windows
HTML charset: windows-1251
RTF charset: 204
编码方式: 1 byte语系

2.ISO
HTML charset: iso-8859-5
RTF charset: 无
编码方式: 1 byte语系

3.KOI8-U
HTML charset: koi8-u
RTF charset: 无
编码方式: 1 byte语系

4.KOI8-R
HTML charset: koi8-r
RTF charset: 无
编码方式: 1 byte语系

八.德文/法文
Unicode范围: 00C0-00FF(混用英文字母)
备注:字母上面有2点者为德文, 字母上面有重音符号者为法文
locale编码: ANSI

1.ANSI
HTML charset: iso-8859-1, windows-1252
RTF charset: 0
编码方式: 1 byte语系

九.印尼文/马来西亚文
Unicode范围: 同英文, 为拼音语系
locale编码: 同英文

十.其他

希腊文,土耳其文,希伯来文,中欧拉丁语文,越南文等尚在研究中...

十.中欧语系
Unicode范围(拉丁语文): 00C0-02AF, 1E00-1EFF(混用英文)
locale编码: Windows, ISO

1.Windows
HTML charset: windows-1250
RTF charset: 238
编码方式: 1 byte语系

2.ISO
HTML charset: iso-8859-2
RTF charset: 无
编码方式: 1 byte语系

十一.希腊文

Unicode范围: 0370-03FF, 1F00-1FFF, 2C80-2CFF
locale编码: Windows

1.Windows
HTML charset: windows-1253, iso8859-7 (后者IE不支援)
RTF charset: 161
编码方式: 1 byte语系

十二.希伯来文
Unicode范围: 0590-05FF
locale编码: Windows

1.Windows
HTML charset: windows-1255, iso8859-8 (后者IE不支援)
RTF charset: 177
编码方式: 1 byte语系

十三.土耳其文
Unicode范围: 同拉丁语文(混用英文)
locale编码: Windows

1.Windows
HTML charset: windows-1254, iso8859-9 (后者IE不支援)
RTF charset: 162
编码方式: 1 byte语系

*** Unicode语系字码分布表

英文 0041-005A, 0061-007A

中文 2E80-2FDF, 3100-312F, 3400-4DBF, 4E00-9FFF, F900-FAFF

日文 3040-30FF, 31F0-31FF

韩文 1100-11FF, 3130-318F, AC00-D7AF

泰文 0E00-0E7F

寮文 0E80-0EFF

藏文 0F00-0FFF

彝文 A000-A4CF

蒙古文 1800-18AF

缅甸文 1000-109F

高棉文 1780-17FF

拉丁文(Latin) 00C0-02AF, 1E00-1EFF

希腊文(Greek) 0370-03FF, 1F00-1FFF, 2C80-2CFF

希伯来文 (Hebrew) 0590-05FF

阿拉伯文(Arabic) 0600-06FF, 0750-077F

叙利亚文(Syriac) 0700-074F

西里尔文(Cyrillic), 0400-052F

亚美尼亚文(Armenian) 0530-058F

孟加拉文(Bengali) 0980-09FF

僧伽罗文(Sinhala,斯里兰卡文) 0D80-0DFF

乔治亚文(Georgian,英国古文) 10A0-10FF, 2D00-2D2F

欧甘文(Ogham,爱尔兰文) 1680-169F

如尼文(Runic,北欧古文) 16A0-16FF

塔纳文(Thaana,一种印度文) 0780-07BF

比哈文(Syloti Nagri,一种印度文) A800-A82F

林布文(Limbu,一种印度文) 1900-194F

布吉文(Buginese,一种印度文) 1A00-1A1F

奥里雅文(Oriya,一种印度文) 0B00-0B7F

泰米尔文(Tamil,一种印度文) 0B80-0BFF

泰卢固文(Telugu,一种印度文) 0C00-0C7F

卡纳达文(Kannada,一种印度文) 0C80-0CFF

天城体梵文(Devanagari,一种印度文) 0900-097F

古尔穆基文(Gurmukhi,一种印度文) 0A00-0A7F

古吉拉特文(Gujarati,一种印度文) 0A80-0AFF

马拉雅拉姆文(Malayalam,一种印度文) 0D00-0D7F

他加禄文(Tagalog,一种菲律宾文) 1700-171F

汉奴劳文(Hanunoo,一种菲律宾文) 1720-173F

Buhid(一种菲律宾文) 1740-175F

Tagbanwa(一种菲律宾文) 1760-177F

彻罗基文(Cherokee,美国印弟安文) 13A0-13FF

Tai Le(中缅边境民族文) 1950-197F

新傣文(中国少数民族文) 1980-19DF

格拉哥里文(Glagolitic,一种斯拉夫文) 2C00-2C5F

衣索比亚文(Ethiopic) 1200-139F, 2D80-2DDF

提非纳文(Tifinagh,一种衣索匹亚文) 2D30-2D7F

*** Unicode字码分布表

0000-007F C0 Control and Basic Latin, 标准ANSI字元

0080-00FF C1 Control and Latin-1 Supplement, 控制码与拉丁文

0100-024F Latin Extended, 拉丁文

0250-02AF IPA Extensions, 拉丁文

02B0-02FF Spacing Modifier Letters, 符号

0300-036F Combining Diacritical Marks, 组合记号

0370-03FF Greek and Coptic, 希腊文与科普特文

0400-052F Cyrillic, 西里尔文

0530-058F Armenian, 亚美尼亚文

0590-05FF Hebrew, 希伯来文

0600-06FF Arabic, 阿拉伯文

0700-074F Syriac, 叙利亚文

0750-077F Arabic Supplement, 阿拉伯文

0780-07BF Thaana, 塔纳文 (一种印度文)

07C0-07FF 保留

0900-097F Devanagari, 天城体梵文 (一种印度文)

0980-09FF Bengali, 孟加拉文

0A00-0A7F Gurmukhi, 古尔穆基文 (一种印度文)

0A80-0AFF Gujarati, 古吉拉特文 (一种印度文)

0B00-0B7F Oriya, 奥里雅文 (一种印度文)

0B80-0BFF Tamil, 泰米尔文 (一种印度文)

0C00-0C7F Telugu, 泰卢固文 (一种印度文)

0C80-0CFF Kannada, 卡纳达文 (一种印度文)

0D00-0D7F Malayalam, 马拉雅拉姆文 (一种印度文)

0D80-0DFF Sinhala, 僧伽罗文 (斯里兰卡文)

0E00-0E7F Thai, 泰文

0E80-0EFF Lao, 寮文

0F00-0FFF Tibetan, 藏文

1000-109F Myanmar, 缅甸文

10A0-10FF Georgian, 乔治亚文 (英国古文)

1100-11FF Hangul Jamo, 韩文

1200-139F Ethiopic, 衣索比亚文

13A0-13FF Cherokee, 彻罗基文 (美国印弟安文)

1400-167F Unified Canadian Aboriginal Syllabics, 加拿大土语音节符号

1680-169F Ogham, 欧甘文 (爱尔兰文)

16A0-16FF Runic, 如尼文 (北欧古文)

1700-171F Tagalog, 他加禄文 (一种菲律宾文)

1720-173F Hanunoo, 汉奴劳文 (一种菲律宾文)

1740-175F Buhid, (一种菲律宾文)

1760-177F Tagbanwa, (一种菲律宾文)

1780-17FF Khmer, 高棉文

1800-18AF Mongolian, 蒙古文

18B0-18FF 保留

1900-194F Limbu, 林布文 (一种印度文)

1950-197F Tai Le, (中缅边境民族文)

1980-19DF New Tai Lue, 新傣文 (中国少数民族文)

19E0-19FF Khmer Symbols, 高棉文符号

1A00-1A1F Buginese, 布吉文 (一种印度文)

1A20-1CFF 保留

1D00-1DBF Phonetic Extensions, 音标符号

1DC0-1DFF Combining Diacritical Marks Supplement, 组合记号

1E00-1EFF Latin Extended Additional, 拉丁文

1F00-1FFF Greek Extended, 希腊文

2000-206F General Punctuation, 标点符号

2070-209F Superscripts and Subscripts, 上下标符号

20A0-20CF Currency Symbols, 货币符号

20D0-20FF Combining Diacritical Marks for Symbols, 符号用组合记号

2100-214F Letterlike Symbols, 似字母符号

2150-218F Number Forms, 数字符号

2190-21FF Arrows, 箭头符号

2200-22FF Mathematical Operators, 数学运算符号

2300-23FF Miscellaneous Technical, 特殊符号

2400-243F Control Pictures, 控制记号

2440-245F Optical Character Recognition, 光学字元识别符号

2460-24FF Enclosed Alphanumerics, 括号字母数字符号

2500-257F Box Drawing, 表格符号

2580-259F Block Elements, 区块符号

25A0-25FF Geometric Shapes, 几何图形符号

2600-26FF Miscellaneous Symbols, 其他符号

2700-27BF Dingbats, 前导符号

27C0-27EF Miscellaneous Mathematical Symbols-A, 数学符号

27F0-27FF Supplemental Arrows-A, 箭头符号

2800-28FF Braille Patterns, 盲文 (点字符号)

2900-297F Supplemental Arrows-B, 箭头符号

2980-29FF Miscellaneous Mathematical Symbols-B, 数学符号

2A00-2AFF Supplemental Mathematical Operators, 数学运算符号

2B00-2BFF Miscellaneous Symbols and Arrows, 箭头符号

2C00-2C5F Glagolitic, 格拉哥里文 (一种斯拉夫文)

2C80-2CFF Coptic, 科普特文 (一种埃及文)

2D00-2D2F Georgian Supplement, 乔治亚文 (英国古文)

2D30-2D7F Tifinagh, 提非纳文 (一种衣索匹亚文)

2D80-2DDF Ethiopic Extended, 衣索匹亚文

2DE0-2DFF 保留

2E00-2E7F Supplemental Punctuation, 标点符号

2E80-2EFF CJK Radicals Supplement, 中文部首

2F00-2FDF Kangxi Radicals, 中文部首

2FF0-2FFF Ideographic Description Characters, 汉字结构描述符号

3000-303F CJK Symbols and Punctuation, 中日韩符号

3040-309F Hiragana, 日文平假名

30A0-30FF Katakana, 日文片假名

3100-312F Bopomofo, 中文注音符号

3130-318F Hangul Compatibility Jamo, 韩文

3190-319F Kanbun, 中文上下标

31A0-31BF Bopomofo Extended, 中文注音符号

31C0-31EF CJK Strokes, 中文笔划符号

31F0-31FF Katakana Phonetic Extensions, 日文片假名

3200-33FF Enclosed CJK Letters and Months, 中日韩组合符号字

3400-4DBF CJK Unified Ideographs Extension A, 中文

4DC0-4DFF Yijing Hexagram Symbols, 易经符号

4E00-9FFF CJK Unified Ideographs, 中文

A000-A4CF Yi, 彝文

A4D0-A6FF 保留

A700-A71F Modifier Tone Letters, 音标符号

A720-A7FF 保留

A800-A82F Syloti Nagri, 比哈文 (一种印度文)

A830-A8FF 保留

AC00-D7AF Hangul Syllables, 韩文

D780-D7FF 保留

D800-DFFF Surrogates, UTF-16相容保留区

E000-F8FF Private Use Area, 自造字专用区

F900-FAFF CJK Compatibility Ideographs, 中文

FB00-FB4F Alphabetic Presentation Forms, 字母变体显现形式

FB50-FDFF Arabic Presentation Forms-A, 阿拉伯文变体显现形式

FE00-FE0F Variation Selectors, 字型变换选取器符号

FE10-FE1F Vertical Forms, 中文直排符号

FE20-FE2F Combining Half Marks, 组合记号

FE30-FE4F CJK Compatibility Forms, 中文直排符号

FE50-FE6F Small Form Variants, 标点符号

FE70-FEFF Arabic Presentation Forms-B, 阿拉伯文变体显现形式

FF00-FFEF Halfwidth and Fullwidth Forms, 半形及全形字符

FFF0-FFFF Specials, 特殊保留区

各种语系的unicode对应以及local编码方式的更多相关文章

  1. 刨根究底字符编码之十——Unicode字符集的字符编码方式CEF

    Unicode字符集的字符编码方式CEF 一.字符编码方式CEF的选择 1. 由于Unicode字符集非常大,有些字符的编号(码点值)需要两个或两个以上字节来表示,而要对这样的编号进行编码,也必须使用 ...

  2. unicode,gbk,utfF-8字符编码方式的区别

    一.编码历史与区别 一直对字符的各种编码方式懵懵懂懂,什么ANSI UNICODE UTF-8 GB2312 GBK DBCS UCS……是不是看的很晕,假如您细细的阅读本文你一定可以清晰的理解他们. ...

  3. ASCII,Unicode和UTF-8字符编码

    ASCII码 我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串.每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte).也就是 ...

  4. Unicode 字符集与它的编码方式

    正式内容開始之前,我们先来了解一个基本概念,编码字符集. 编码字符集:编码字符集是一个字符集,它为每个字符分配一个唯一数字.Unicode 标准的核心是一个编码字符集,字母"A"的 ...

  5. Unicode字符集和编码方式

    通常将一个标准中能够表示的所有字符的集合称为字符集,比如ISO/Unicode所定义的字符集为Unicode.在Unicode中,每个字符占据一个码位/Unicode 编号(用4位十六进制数表示,Co ...

  6. 字符编码方式ASCII、Unicode、UTF-8

    一.ASCII 1.介绍 即American Standard Code for Information Interchange(美国信息交换标准代码),是基于拉丁字母的,主要用于显示现代英语和其他西 ...

  7. 编码方式之ASCII、ANSI、Unicode概述

    1.ASCII ASCII全称(American Standard Code for Information Interchange)美国信息交换标准代码,在计算机内部中8位二进制位组成1个字节(8( ...

  8. Unicode字符集,utf8编码,base64编码简单了解

    Unicode字符集,utf8编码,base64编码简单了解 Unicode字符集,ASCII,GB2312编码集合等,类似于不同的字典,不同的字符的编码,类似于字典中的字在哪一个页哪一排. 当不同系 ...

  9. java中的字符编码方式

    1. 问题由来 面试的时候被问到了各种编码方式的区别,结果一脸懵逼,这个地方集中学习一下. 2. 几种字符编码的方式 1. ASCII码 我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符 ...

随机推荐

  1. php 利用Gd库添加文字水印乱码的问题及解决方案

    最近一个项目进行了服务器迁移,部署后发现 ,其中一个为图片添加水印文字的功能出现了乱码问题,确认功能代码不存在问题,同时项目代码都是使用UTF-8编码,不存在编码问题,也检查排除了字体文件出现问题的可 ...

  2. python3 第十三章 - 数据类型之tuple(元组)

    元组与列表类似,不同之处在于元组的元素不能修改. 元组使用小括号,列表使用方括号. 元组创建很简单,只需要在括号中添加元素,并使用逗号隔开即可: language = ('c', 'c++', 'py ...

  3. java连接mysql以及增删改查操作

    java连接数据库的代码基本是固定的,步骤过程觉得繁琐些,代码记起来对我来说是闹挺.直接上代码: (温馨提醒:你的项目提前导入连接数据库的jar包才有的以下操作 ) class DBConnectio ...

  4. 重新认识AWS

    Amazon Web Services早期logo: 现在的logo: 一.背景Amazon Web Services,简称AWS.目前世界第一大云计算厂商,AWS 云在全球 18 个地理地区内运营着 ...

  5. 无法远程连接SQLSERVER2000的解决方法

    有时候客户端和服务器不在同一个局域网里面,这时候很可能无法直接使用服务器名称来标识该服务器,这时候我们可以使用HOSTS文件来进行名字解析,具体的方法是: 1.使用记事本打开HOSTS文件(一般情况下 ...

  6. redis动态配置

    Config get CONFIG GET parameter CONFIG GET 命令用于取得运行中的 Redis 服务器的配置参数(configuration parameters),在 Red ...

  7. 一步一步从原理跟我学邮件收取及发送 9.多行结果与socket的阻塞

    前几篇的文章发表后,有网友留言说没有涉及到阻塞的问题吗?在 socket 的编程当中,这确实是个很重要的问题.结合目前我们文章的内容进度,我们来看看为什么说阻塞概念很重要. 接着上篇的内容,当我们发送 ...

  8. appium问题整理

    在刚进入appium的世界时,遇到无数的坑,趟过无数的浑水,现在整理一些常用的报错讯息,供大家参考 1.org.openqa.selenium.remote.UnreachableBrowserExc ...

  9. jQuery应用操作之---表格

    示例: <table> <thread> <tr><th>姓名</th><th>性别</th><th>暂 ...

  10. ABP官方文档翻译 4.4 授权

    授权 介绍 关于IPermissionChecker 定义权限 检查权限 使用AbpAuthorize特性 AbpAuthorize特性注意点 抑制授权 使用IPermissionChecker 在R ...