链接:http://www.doc88.com/p-801578373970.html

一.英文

Unicode范围: 0041-005A, 0061-007A (若含数字与符号,则为0021-007E)

locale编码: ANSI

1. ANSI
HTML charset: us-ascii
RTF charset: 0
编码方式: 41-5A, 61-7A (若含数字与符号,则为21-7E)

二.中文
Unicode范围: 2E80-2FDF, 3400-4DBF, 4E00-9FFF
备注:F900-FAFF的相容型中文字码,应转至一般的中文字码处理,31A0-31BF则为注音符号表
locale编码: 繁体中文有BIG5, CNS, 简体中文为GB

1.BIG5
HTML charset: big5
RTF charset: 136
编码方式: 双byte语系, byte 1范围为A1-FE, byte 2范围为40-7E, A1-FE
备注:big5+目前几乎无人使用,故省略不提

2.CNS
HTML charset: 无 (应为euc-tw或iso-2022-cn, 但IE并不支援)
RTF charset: 无
编码方式: 多byte语系
byte 1范围为A1-FE时为2 byte编码, byte 2范围为A1-FE
byte 1为8E时, 为4 byte编码, byte 2范围为A1-B0, byte 3与byte 4范围均为A1-FE
备注: 4 byte编码时, byte 2为A1与2 byte编码之字码相同 (即第1字面), CNS目前只使用了7个字面, 因此byte 2实际使用范围为A1-A7, 早期第15字面有放了一些字码, 后来都已编入前7个字面内了

3.GB
HTML charset: gb2312, gbk, euc-cn
RTF charset: 134
编码方式: 双byte语系, byte 1范围为81-FE, byte 2范围为40-7E, 80-FE

三.日文
Unicode范围: 3040-30FF, 31F0-31FF(混用中文字码)
备注:FF00-FFEF有半形日文,应转至一般日文字码处理
locale编码: Shift-JIS, EUC-JP

1.Shift-JIS
HTML charset: shift_jis, x-sjis, iso-2022-jp
RTF charset: 128
编码方式: 单/双byte语系
byte 1范围为A1-DF时为1 byte编码
byte 1范围为81-9F, E0-EF时为2 byte编码, byte 2范围为40-7E, 80-FC

2.EUC-JP
HTML charset: euc-jp, x-euc-jp
RTF charset: 无
编码方式: 多byte语系
byte 1为8E时, 为2 byte编码, byte 2范围为A1-DF
byte 1范围为A1-FE时, 为2 byte编码, byte 2范围为A1-FE
byte 1为8F时为3 byte编码, byte 2与byte 3范围均为A1-FE
备注: IE不支援3 byte编码部份

四.韩文
Unicode范围: 1100-11FF, 3130-318F, AC00-D7AF(混用中文字码)
备注:FF00-FFEF有半形韩文,应转至一般韩文字码处理
locale编码: Johab, EUC-KR

1.Johab
HTML charset: johab
RTF charset: 130
编码方式: 双byte语系
byte 1范围为84-D3时, byte 2范围为41-7E, 81-FE
byte 1范围为D8-DE, E0-FE时, byte 2范围为31-7E, 91-FE

2.EUC-KR
HTML charset: euc-kr, iso-2022-kr
RTF charset: 129
编码方式: 双byte语系, byte 1范围为A1-FE, byte 2范围为A1-FE

五.阿拉伯文
Unicode范围: 0600-06FF, 0750-077F
locale编码: Windows

1.Windows
HTML charset: windows-1256
RTF charset: 178
编码方式: 1 byte语系

六.泰文
Unicode范围: 0E00-0E7F
locale编码: Windows

1.Windows
HTML charset: windows-874
RTF charset: 222
编码方式: 1 byte语系

七.俄文
Unicode范围: 0400-052F (西里尔文)
locale编码: Windows, ISO, KOI8-U, KOI8-R

1.Windows
HTML charset: windows-1251
RTF charset: 204
编码方式: 1 byte语系

2.ISO
HTML charset: iso-8859-5
RTF charset: 无
编码方式: 1 byte语系

3.KOI8-U
HTML charset: koi8-u
RTF charset: 无
编码方式: 1 byte语系

4.KOI8-R
HTML charset: koi8-r
RTF charset: 无
编码方式: 1 byte语系

八.德文/法文
Unicode范围: 00C0-00FF(混用英文字母)
备注:字母上面有2点者为德文, 字母上面有重音符号者为法文
locale编码: ANSI

1.ANSI
HTML charset: iso-8859-1, windows-1252
RTF charset: 0
编码方式: 1 byte语系

九.印尼文/马来西亚文
Unicode范围: 同英文, 为拼音语系
locale编码: 同英文

十.其他

希腊文,土耳其文,希伯来文,中欧拉丁语文,越南文等尚在研究中...

十.中欧语系
Unicode范围(拉丁语文): 00C0-02AF, 1E00-1EFF(混用英文)
locale编码: Windows, ISO

1.Windows
HTML charset: windows-1250
RTF charset: 238
编码方式: 1 byte语系

2.ISO
HTML charset: iso-8859-2
RTF charset: 无
编码方式: 1 byte语系

十一.希腊文

Unicode范围: 0370-03FF, 1F00-1FFF, 2C80-2CFF
locale编码: Windows

1.Windows
HTML charset: windows-1253, iso8859-7 (后者IE不支援)
RTF charset: 161
编码方式: 1 byte语系

十二.希伯来文
Unicode范围: 0590-05FF
locale编码: Windows

1.Windows
HTML charset: windows-1255, iso8859-8 (后者IE不支援)
RTF charset: 177
编码方式: 1 byte语系

十三.土耳其文
Unicode范围: 同拉丁语文(混用英文)
locale编码: Windows

1.Windows
HTML charset: windows-1254, iso8859-9 (后者IE不支援)
RTF charset: 162
编码方式: 1 byte语系

*** Unicode语系字码分布表

英文 0041-005A, 0061-007A

中文 2E80-2FDF, 3100-312F, 3400-4DBF, 4E00-9FFF, F900-FAFF

日文 3040-30FF, 31F0-31FF

韩文 1100-11FF, 3130-318F, AC00-D7AF

泰文 0E00-0E7F

寮文 0E80-0EFF

藏文 0F00-0FFF

彝文 A000-A4CF

蒙古文 1800-18AF

缅甸文 1000-109F

高棉文 1780-17FF

拉丁文(Latin) 00C0-02AF, 1E00-1EFF

希腊文(Greek) 0370-03FF, 1F00-1FFF, 2C80-2CFF

希伯来文 (Hebrew) 0590-05FF

阿拉伯文(Arabic) 0600-06FF, 0750-077F

叙利亚文(Syriac) 0700-074F

西里尔文(Cyrillic), 0400-052F

亚美尼亚文(Armenian) 0530-058F

孟加拉文(Bengali) 0980-09FF

僧伽罗文(Sinhala,斯里兰卡文) 0D80-0DFF

乔治亚文(Georgian,英国古文) 10A0-10FF, 2D00-2D2F

欧甘文(Ogham,爱尔兰文) 1680-169F

如尼文(Runic,北欧古文) 16A0-16FF

塔纳文(Thaana,一种印度文) 0780-07BF

比哈文(Syloti Nagri,一种印度文) A800-A82F

林布文(Limbu,一种印度文) 1900-194F

布吉文(Buginese,一种印度文) 1A00-1A1F

奥里雅文(Oriya,一种印度文) 0B00-0B7F

泰米尔文(Tamil,一种印度文) 0B80-0BFF

泰卢固文(Telugu,一种印度文) 0C00-0C7F

卡纳达文(Kannada,一种印度文) 0C80-0CFF

天城体梵文(Devanagari,一种印度文) 0900-097F

古尔穆基文(Gurmukhi,一种印度文) 0A00-0A7F

古吉拉特文(Gujarati,一种印度文) 0A80-0AFF

马拉雅拉姆文(Malayalam,一种印度文) 0D00-0D7F

他加禄文(Tagalog,一种菲律宾文) 1700-171F

汉奴劳文(Hanunoo,一种菲律宾文) 1720-173F

Buhid(一种菲律宾文) 1740-175F

Tagbanwa(一种菲律宾文) 1760-177F

彻罗基文(Cherokee,美国印弟安文) 13A0-13FF

Tai Le(中缅边境民族文) 1950-197F

新傣文(中国少数民族文) 1980-19DF

格拉哥里文(Glagolitic,一种斯拉夫文) 2C00-2C5F

衣索比亚文(Ethiopic) 1200-139F, 2D80-2DDF

提非纳文(Tifinagh,一种衣索匹亚文) 2D30-2D7F

*** Unicode字码分布表

0000-007F C0 Control and Basic Latin, 标准ANSI字元

0080-00FF C1 Control and Latin-1 Supplement, 控制码与拉丁文

0100-024F Latin Extended, 拉丁文

0250-02AF IPA Extensions, 拉丁文

02B0-02FF Spacing Modifier Letters, 符号

0300-036F Combining Diacritical Marks, 组合记号

0370-03FF Greek and Coptic, 希腊文与科普特文

0400-052F Cyrillic, 西里尔文

0530-058F Armenian, 亚美尼亚文

0590-05FF Hebrew, 希伯来文

0600-06FF Arabic, 阿拉伯文

0700-074F Syriac, 叙利亚文

0750-077F Arabic Supplement, 阿拉伯文

0780-07BF Thaana, 塔纳文 (一种印度文)

07C0-07FF 保留

0900-097F Devanagari, 天城体梵文 (一种印度文)

0980-09FF Bengali, 孟加拉文

0A00-0A7F Gurmukhi, 古尔穆基文 (一种印度文)

0A80-0AFF Gujarati, 古吉拉特文 (一种印度文)

0B00-0B7F Oriya, 奥里雅文 (一种印度文)

0B80-0BFF Tamil, 泰米尔文 (一种印度文)

0C00-0C7F Telugu, 泰卢固文 (一种印度文)

0C80-0CFF Kannada, 卡纳达文 (一种印度文)

0D00-0D7F Malayalam, 马拉雅拉姆文 (一种印度文)

0D80-0DFF Sinhala, 僧伽罗文 (斯里兰卡文)

0E00-0E7F Thai, 泰文

0E80-0EFF Lao, 寮文

0F00-0FFF Tibetan, 藏文

1000-109F Myanmar, 缅甸文

10A0-10FF Georgian, 乔治亚文 (英国古文)

1100-11FF Hangul Jamo, 韩文

1200-139F Ethiopic, 衣索比亚文

13A0-13FF Cherokee, 彻罗基文 (美国印弟安文)

1400-167F Unified Canadian Aboriginal Syllabics, 加拿大土语音节符号

1680-169F Ogham, 欧甘文 (爱尔兰文)

16A0-16FF Runic, 如尼文 (北欧古文)

1700-171F Tagalog, 他加禄文 (一种菲律宾文)

1720-173F Hanunoo, 汉奴劳文 (一种菲律宾文)

1740-175F Buhid, (一种菲律宾文)

1760-177F Tagbanwa, (一种菲律宾文)

1780-17FF Khmer, 高棉文

1800-18AF Mongolian, 蒙古文

18B0-18FF 保留

1900-194F Limbu, 林布文 (一种印度文)

1950-197F Tai Le, (中缅边境民族文)

1980-19DF New Tai Lue, 新傣文 (中国少数民族文)

19E0-19FF Khmer Symbols, 高棉文符号

1A00-1A1F Buginese, 布吉文 (一种印度文)

1A20-1CFF 保留

1D00-1DBF Phonetic Extensions, 音标符号

1DC0-1DFF Combining Diacritical Marks Supplement, 组合记号

1E00-1EFF Latin Extended Additional, 拉丁文

1F00-1FFF Greek Extended, 希腊文

2000-206F General Punctuation, 标点符号

2070-209F Superscripts and Subscripts, 上下标符号

20A0-20CF Currency Symbols, 货币符号

20D0-20FF Combining Diacritical Marks for Symbols, 符号用组合记号

2100-214F Letterlike Symbols, 似字母符号

2150-218F Number Forms, 数字符号

2190-21FF Arrows, 箭头符号

2200-22FF Mathematical Operators, 数学运算符号

2300-23FF Miscellaneous Technical, 特殊符号

2400-243F Control Pictures, 控制记号

2440-245F Optical Character Recognition, 光学字元识别符号

2460-24FF Enclosed Alphanumerics, 括号字母数字符号

2500-257F Box Drawing, 表格符号

2580-259F Block Elements, 区块符号

25A0-25FF Geometric Shapes, 几何图形符号

2600-26FF Miscellaneous Symbols, 其他符号

2700-27BF Dingbats, 前导符号

27C0-27EF Miscellaneous Mathematical Symbols-A, 数学符号

27F0-27FF Supplemental Arrows-A, 箭头符号

2800-28FF Braille Patterns, 盲文 (点字符号)

2900-297F Supplemental Arrows-B, 箭头符号

2980-29FF Miscellaneous Mathematical Symbols-B, 数学符号

2A00-2AFF Supplemental Mathematical Operators, 数学运算符号

2B00-2BFF Miscellaneous Symbols and Arrows, 箭头符号

2C00-2C5F Glagolitic, 格拉哥里文 (一种斯拉夫文)

2C80-2CFF Coptic, 科普特文 (一种埃及文)

2D00-2D2F Georgian Supplement, 乔治亚文 (英国古文)

2D30-2D7F Tifinagh, 提非纳文 (一种衣索匹亚文)

2D80-2DDF Ethiopic Extended, 衣索匹亚文

2DE0-2DFF 保留

2E00-2E7F Supplemental Punctuation, 标点符号

2E80-2EFF CJK Radicals Supplement, 中文部首

2F00-2FDF Kangxi Radicals, 中文部首

2FF0-2FFF Ideographic Description Characters, 汉字结构描述符号

3000-303F CJK Symbols and Punctuation, 中日韩符号

3040-309F Hiragana, 日文平假名

30A0-30FF Katakana, 日文片假名

3100-312F Bopomofo, 中文注音符号

3130-318F Hangul Compatibility Jamo, 韩文

3190-319F Kanbun, 中文上下标

31A0-31BF Bopomofo Extended, 中文注音符号

31C0-31EF CJK Strokes, 中文笔划符号

31F0-31FF Katakana Phonetic Extensions, 日文片假名

3200-33FF Enclosed CJK Letters and Months, 中日韩组合符号字

3400-4DBF CJK Unified Ideographs Extension A, 中文

4DC0-4DFF Yijing Hexagram Symbols, 易经符号

4E00-9FFF CJK Unified Ideographs, 中文

A000-A4CF Yi, 彝文

A4D0-A6FF 保留

A700-A71F Modifier Tone Letters, 音标符号

A720-A7FF 保留

A800-A82F Syloti Nagri, 比哈文 (一种印度文)

A830-A8FF 保留

AC00-D7AF Hangul Syllables, 韩文

D780-D7FF 保留

D800-DFFF Surrogates, UTF-16相容保留区

E000-F8FF Private Use Area, 自造字专用区

F900-FAFF CJK Compatibility Ideographs, 中文

FB00-FB4F Alphabetic Presentation Forms, 字母变体显现形式

FB50-FDFF Arabic Presentation Forms-A, 阿拉伯文变体显现形式

FE00-FE0F Variation Selectors, 字型变换选取器符号

FE10-FE1F Vertical Forms, 中文直排符号

FE20-FE2F Combining Half Marks, 组合记号

FE30-FE4F CJK Compatibility Forms, 中文直排符号

FE50-FE6F Small Form Variants, 标点符号

FE70-FEFF Arabic Presentation Forms-B, 阿拉伯文变体显现形式

FF00-FFEF Halfwidth and Fullwidth Forms, 半形及全形字符

FFF0-FFFF Specials, 特殊保留区

各种语系的unicode对应以及local编码方式的更多相关文章

  1. 刨根究底字符编码之十——Unicode字符集的字符编码方式CEF

    Unicode字符集的字符编码方式CEF 一.字符编码方式CEF的选择 1. 由于Unicode字符集非常大,有些字符的编号(码点值)需要两个或两个以上字节来表示,而要对这样的编号进行编码,也必须使用 ...

  2. unicode,gbk,utfF-8字符编码方式的区别

    一.编码历史与区别 一直对字符的各种编码方式懵懵懂懂,什么ANSI UNICODE UTF-8 GB2312 GBK DBCS UCS……是不是看的很晕,假如您细细的阅读本文你一定可以清晰的理解他们. ...

  3. ASCII,Unicode和UTF-8字符编码

    ASCII码 我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串.每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte).也就是 ...

  4. Unicode 字符集与它的编码方式

    正式内容開始之前,我们先来了解一个基本概念,编码字符集. 编码字符集:编码字符集是一个字符集,它为每个字符分配一个唯一数字.Unicode 标准的核心是一个编码字符集,字母"A"的 ...

  5. Unicode字符集和编码方式

    通常将一个标准中能够表示的所有字符的集合称为字符集,比如ISO/Unicode所定义的字符集为Unicode.在Unicode中,每个字符占据一个码位/Unicode 编号(用4位十六进制数表示,Co ...

  6. 字符编码方式ASCII、Unicode、UTF-8

    一.ASCII 1.介绍 即American Standard Code for Information Interchange(美国信息交换标准代码),是基于拉丁字母的,主要用于显示现代英语和其他西 ...

  7. 编码方式之ASCII、ANSI、Unicode概述

    1.ASCII ASCII全称(American Standard Code for Information Interchange)美国信息交换标准代码,在计算机内部中8位二进制位组成1个字节(8( ...

  8. Unicode字符集,utf8编码,base64编码简单了解

    Unicode字符集,utf8编码,base64编码简单了解 Unicode字符集,ASCII,GB2312编码集合等,类似于不同的字典,不同的字符的编码,类似于字典中的字在哪一个页哪一排. 当不同系 ...

  9. java中的字符编码方式

    1. 问题由来 面试的时候被问到了各种编码方式的区别,结果一脸懵逼,这个地方集中学习一下. 2. 几种字符编码的方式 1. ASCII码 我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符 ...

随机推荐

  1. mysql根据汉字首字母排序[转]

    select  areaName  from area order by   convert(areaName USING gbk)   COLLATE   gbk_chinese_ci asc 说明 ...

  2. Servlet--取得初始化配置信息

    关于这块内容,主要就是玩一个接口:ServletConfig.先翻下API,了解一下. 定义: public interface ServletConfig 这个接口定义了一个对象,通过这个对象,Se ...

  3. String.Format 格式化货币的小问题

    今天在开发过程中,遇到一件让我觉得比较纳闷的事情:用String.Format 格式化充值金额的时候,我这样处理: String.Format("{0:C2}", dr[" ...

  4. javacript 组合使用构造函数模式和原型模式

    构造函数模式创建对象 基本方法 function Person(name,age){ this.name=name; this.age=age; this.sayName=function(){ al ...

  5. 我的java之路week2类的无参、带参方法

    2.1语法 public 返回值类型 方法名(){ //方法体 } 2.2方法的调用语法 对象名.方法名 计算平均分和总成绩 public class Score { /** * 创建类 ScoreC ...

  6. Core Animation 文档翻译 (第七篇)——改变Layer的默认动画

    前言 核心动画使用action对象实现它的可视化动画.一个action对象是指遵循CAAction协议并定义了Layer相关的动画行为的对象.所有的CAAnimation对象实现了这个协议,无论何时L ...

  7. Effective Java 之-----消除过期的对象引用

    public class Stack { private Object[] elements; private int size = 0; private static final int DEFAU ...

  8. Acrobat 转换pdf到png的另一种方法

    此方法效率较低,大概2秒转3页pdf成png图片,但是可以保证图片质量很高,分辨率很高.有优化的地方,但没时间研究.先放代码吧. 前提是安装 acrobat 11(即acrobat xi) CAcro ...

  9. XBIM 基于 WexBIM 文件在 WebGL 浏览和加载

    目录 xBIM 应用与学习 (一) xBIM 应用与学习 (二) xBIM 基本的模型操作 xBIM 日志操作 XBIM 3D 墙壁案例 xBIM 格式之间转换 xBIM 使用Linq 来优化查询 x ...

  10. SpringMVC源码情操陶冶-DispatcherServlet类简析(一)

    阅读源码有利于陶冶情操,此文承接前文SpringMVC源码情操陶冶-DispatcherServlet父类简析 注意:springmvc初始化其他内容,其对应的配置文件已被加载至beanFactory ...