在UTF-8中，一个汉字为什么需要三个字节？（转）

字符集之在UTF-8中，一个汉字为什么需要三个字节？

(一)在UTF-8中,一个汉字为什么需要三个字节? UNICODE是万能编码,包含了所有符号的编码,它规定了所有符号在计算机底层的二进制的表示顺序.有关Unicode为什么会出现就不叙述了,Unicode是针对所有计算机的使用者定义一套统一的编码规范,这样计算机使用者就避免了编码转换的问题.Unicode定义了所有符号的二进制形式,也就是符号如何在计算机内部存储的,而且每个符号规定都必须使用两个字节来表示,也就是用16位二进制去代表一个符号,这样就导致了一个问题,英文编码的空间浪费,因为在ANS…

在UTF-8中，一个汉字为什么需要三个字节？

UNICODE是万能编码,包含了所有符号的编码,它规定了所有符号在计算机底层的二进制的表示顺序.有关Unicode为什么会出现就不叙述了,Unicode是针对所有计算机的使用者定义一套统一的编码规范,这样计算机使用者就避免了编码转换的问题.Unicode定义了所有符号的二进制形式,也就是符号如何在计算机内部存储的,而且每个符号规定都必须使用两个字节来表示,也就是用16位二进制去代表一个符号,这样就导致了一个问题,英文编码的空间浪费,因为在ANSI中的符号都是一个字节来表示的,而使用了UNICOD…

在UTF-8中，一个汉字为什么需要三个字节？（转）

http://www.cnblogs.com/web21/p/6092414.html UNICODE是万能编码,包含了所有符号的编码,它规定了所有符号在计算机底层的二进制的表示顺序.有关Unicode为什么会出现就不叙述了,Unicode是针对所有计算机的使用者定义一套统一的编码规范,这样计算机使用者就避免了编码转换的问题.Unicode定义了所有符号的二进制形式,也就是符号如何在计算机内部存储的,而且每个符号规定都必须使用两个字节来表示,也就是用16位二进制去代表一个符号,这样就导致了一个问…

python中一个汉字点3个字节？ utf-8

今天发现了一个汉字占了3个字节,一开始以为是两个呢,字符串切片时总出现乱码,后来才发现一个中文占3个字节.这才解决了乱码问题原来 1. utf-8 编码中,一个汉字占三个字节.英文字母是一个占用一个字节. 参考链接:https://blog.csdn.net/cadi2011/article/details/82048702 我发现python里面,汉子的长度,一个是占3个 1.难道是因为 utf-8的话一个汉子是占用了3个字节 2.反正今天顺着一个bug,想看看字符串的长度,结果一串英文,…

lua去掉字符串中的UTF-8的BOM三个字节

废话不多说,还是先说点吧,项目中lua读取的text文件如果有BOM,客户端解析就会报错,所以我看了看,任务编辑器swGameTaskEditor 在写入文件的时候,也不知道为什么有的文件就是UTF-8BOM格式:但一般都是 UTF-8 无BOM的. 还是从lua改起来吧.搜了一搜,没搜索到直接可以使用的代码. 本来想用 string.gsub(mainString,findString,replaceString,num) 来替换\xEFBBBF为空.不过 \xEFBBBF 这种表示方法,lu…

JAVA中一个汉字占多少个字符（转载）

1.先说重点: 不同的编码格式占字节数是不同的,UTF-8编码下一个中文所占字节也是不确定的,可能是2个.3个.4个字节: 2.以下是源码: 1 @Test 2 public void test1() throws UnsupportedEncodingException { 3 String a = "名"; 4 System.out.println("UTF-8编码长度:"+a.getBytes("UTF-8").length); 5 Sys…

utf-8 下汉字为什么需要三个字节

Unicode 十六进制码点范围 --> UTF-8 二进制0000 0000 - 0000 007F --> 0xxxxxxx 0000 0080 - 0000 07FF --> 110xxxxx 10xxxxxx 0000 0800 - 0000 FFFF --> 1110xxxx 10xxxxxx 10xxxxxx 0001 0000 - 0010 FFFF --> 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 一个字节八个二进制位 u…

Android布局中的空格以及占一个汉字宽度的空格的实现

在Android布局中进行使用到空格,以便实现文字的对齐.那么在Android中如何表示一个空格呢? 空格: 窄空格: 一个汉字宽度的空格: [用两个空格( )占一个汉字的宽度时,两个空格比一个汉字略窄,三个空格( )比一个汉字略宽] 在实际使用中需要灵活使用和的组合. android:text="项目名称:" android:text="负责人:" 参考资料: http://www.ithao123.cn/content-7409296.…

Android布局中的空格以及占一个汉字宽度的空格，实现不同汉字字数对齐

前言在Android布局中进行使用到空格,以便实现文字的对齐.那么在Android中如何表示一个空格呢? 空格: (普通的英文半角空格但不换行) 窄空格: 　(中文全角空格 (一个中文宽度)) (半个中文宽度,但两个空格比一个中文略大) (一个中文宽度,但用起来会比中文字宽一点点) \u3000\u3000(首行缩进) \u3000(全角空格(中文符号)) \u0020(半角空格(英文符号)) …(省略号) 所以如果想要实现文字对齐,那么可以考虑下面的方案: 方案一:一个汉字宽度的空格:…

[zz]如何在C语言程序中处理汉字

学习过C语言的人也许有时会遇到这样一个问题:如何用变量存储汉字以及对这些变量进行操作.目前许多C语言参考书中都没涉及到这个问题,程序中多为处理英文变量和英文字符串,涉及到汉字的情况也大都是在printf语句中输出提示信息或结果,如: printf("请输入a,b的值:\n"); printf("输出功率为%s千瓦.\n",power); 复制代码考虑到还有相当一部分人在学习和应用C语言,因此在这里向读者介绍一下笔者在这方面摸索出来的经验. 存储汉字应该用字符数组,…

为什么Java中一个char能存下一个汉字

在Java中,char的长度是2字节,即16位,2的16次方是65536. 1.如果采用utf-8编码,一个汉字占3个字节,char为什么还能存下一个汉字呢? 参考:https://developer.aliyun.com/ask/65417?spm=a2c6h.13159736.https://blog.csdn.net/shipfei_csdn/article/details/81900952.https://blog.csdn.net/Sugar_Z_/article/details/51…

一个汉字在php中占几个字节？

问:一个汉字在php中占几个字节? 答: 对于中文字符,若使用 GBK.Big-5 版本,每个中文字符相当于 2 个字节: 若使用 UTF-8 版本,每个中文字符相当于 3 个字节.…

oracle中varchar2(2)存不了一个汉字的原因

错误提示: 一个汉字占了三个字节,而不是两个,这跟字符集有关. 查一下字符集:select userenv('language') from dual; 结果显示,本机Oracle的字符集是UTF-8,32位,而不是GBK的16位.UTF-8的每个字符占3个字节(bytes),可以通过修改默认字符集来实现varchar2(2)存储一个汉字. 若此时数据库服务器已启动,则先执行SHUTDOWN IMMEDIATE命令关闭数据库服务器,然后执行以下命令: SQL>STARTUP MOUNT; SQL…

java梳理-一个汉字占多大空间

面试题:一个汉字占多大空间. 事实上这个问题我了解不深的,知道结论不知道为什么.借此梳理下认识. 先回想下java基本类型一基本类型 :简称四类八种,声明变量的同一时候分配了空间.举比例如以下: Int a =1;一.4种整型 byte 1字节 -128--127 short 2 字节 -32,768 -- 32,767 int 4 字节 -2,147,483,648 --2,147…

请问utf-8的中文是一个汉字占三个字节长度吗？

这是个好问题,可以当作一个笔试题.先从字符编码讲起. 1.美国人首先对其英文字符进行了编码,也就是最早的ascii码,用一个字节的低7位来表示英文的128个字符,高1位统一为0: 2.后来欧洲人发现尼玛你这128位哪够用,比如我高贵的法国人字母上面的还有注音符,这个怎么区分,得,把高1位编进来吧,这样欧洲普遍使用一个全字节进行编码,最多可表示256位.欧美人就是喜欢直来直去,字符少,编码用得位数少: 3.但是即使位数少,不同国家地区用不同的字符编码,虽然0--127表示的符号是一样的,但是128…

mysql和oracle的一个汉字占几个字符

以前一直使用oracle11g,一个汉字占3个字节,所以在操作mysql时也一直这样分配长度. 今天测试了下发现不对了可以看到第一个的长度确实是15,但是第二个为什么是5? 在网上找到资料:char_length计算的是字符长度,而length计算的是字节长度,刚好我使用的是utf8,一个汉字占3个字节,占一个字符. 那好了,应该是对的上了,可是好奇心我就试了下为什么这是相同的?因为这不是汉字好了,现在知道原来mysql和oracle一样的,但是又看到一篇说mysql的varchar与or…

utf-8中的汉字占用多少字节

转载:http://blog.csdn.net/chummyhe89/article/details/7777613 占2个字节的:〇占3个字节的:基本等同于GBK,含21000多个汉字占4个字节的:中日韩超大字符集里面的汉字,有5万多个一个utf8数字占1个字节一个utf8英文字母占1个字节在查找 UTF-8 编码资料时发现,很多的帖子说的 UTF-8 编码里,一个汉字占用3个字节,有的还做了个证明,大概是这样的,创建一个没有BOM的UTF-8编码的文本文件,里面保存了几个汉字,然后…

sim卡中的汉字存储格式

Sim卡中的ucs2格式 Sim卡中的中文都是以ucs2格式存储的,ucs2和unicode只是字节序不同,unicode是小头在前,ucs2是大头在前. Ucs2与GB2312互换可以用VC中的WideCharToMultiByte以及MultiByteToWideChar函数. Ucs2本身有3种格式,常用的是80格式,即80开头,每两个字节表示一个字符,还有81,82格式,后两种可以用一个字节表示一个汉字.80,81,82,gb2312在特定条件下可以互换. 下面对规范做一些简要解释 An…

Protel中放置汉字工具的使用图示

首先先到网上下载Protel中放置汉字工具ProtelHz.然后把ProtelHz中的文件全部解压到Protel99se安装目录X:\Program Files\Design Explorer 99 SE下. 如图: 点击“FONT.EXE”打开放置汉字工具软件.显示如下图: 在“汉字文本”对话框中输入需要的汉字,“放置层面”选择需要放置的层,在“字体类型”中选择“轮廓”或者“填充”,点击“选择”按钮选择字体以及大小,点击“确定”后,在hanzi.lib这个文件中就生成一个元件,在protel9…

玩转PHP(一)---php中处理汉字字符串长度：strlen和mb_strlen

注:本文为小编原创,如若转载,请注明出处:http://blog.csdn.net/u012116457/article/details/42536039 今天正式开始学习PHP了,不过小编一不小心就发现了一个使用PHP时需要特别注意的地方. 如这个例子: <html> <meta charset="utf-8"> <body> <?php $name="鸣人"; print "姓名的长度为:".strl…

树莓派进阶之路 (032) -字符问题（2） - 用c语言怎样得到一个汉字的GB2312编码(转)

C/C++支持的是ASCII,不过汉字编码中,GB2312与ASCII是兼容的,所以可以在C中获得汉字的GB2312编码 GB2312是两个字节的,第一字节是高八位,第二字节是低八位,比如下面的程序:#include<stdio.h>#include<string.h>int main(){char a[5];strcpy(a,"啊");printf("%XH %XH\n",(unsigned char)a[0],(unsigned char…

VB6单片机编程中的汉字处理

在DOS时代,拥有一个华丽的汉字菜单几乎是每个高档中文应用程序必须的包装.中文Windows操作系统的出现使得高级开发平台实现全中文的提示和界面非常容易和方便.在一般的应用程序中已经很少需要去专门考虑汉字处理的问题. 但是在许多工程控制和字符串处理的环境中,汉字字符的处理仍然有别于西文字符的处理,需要加以专门的考虑. 一.VB6对汉字处理的支持对汉字处理,VB6主要是提供了一些输入法设置方面的支持.它提供了一个ImeMode属性和ImeStatus函数来确定和设置输入法的状态.而且此属性和方法…

ORACLE中一个字符占多少字节？

问题描述或许你会说一个中文字符占2个字节,这是一定的?如何计算一个字符串的字节数? 解决方案在oracle中一个字符特别是中文占几个字节是不同的. 比如我创立一个表create table test_ly(a varchar2(4),b nvarchar2(4)) 你说a列能插入两个汉字吗? 错!最多能插入一个汉字加一个字母(或数字). 这是为什么?因为一个汉字在a字段中占了3个字节,其他字符(比如数字或者字母或者英文标点符号)占1个字节, 你说b列最多能插入多少个汉字,2个? 错!b列最多…

js replace 全局替换以表单的方式提交参数判断是否为ie浏览器将jquery.qqFace.js表情转换成微信的字符码手机端省市区联动新字体引用本地运行可以获得，放到服务器上报404 C#提取html中的汉字 MVC几种找不到资源的解决方式使用Windows服务定时去执行一个方法的三种方式

js replace 全局替换 js 的replace 默认替换只替换第一个匹配的字符,如果字符串有超过两个以上的对应字符就无法进行替换,这时候就要进行一点操作,进行全部替换. <script language="javascript"> var strM = "这是要被替换的字符串啊啊!"; //在此我想将字母a替换成字母A alert(strM.replace("啊","额")); </script&…

Delphi中取得汉字的首字母简单方法（十分巧妙）

//从朝闻道的博客里转载,原文定义AHzStr: String,发现结果为空,后来改成AHzStr: AnsiString就可以了 function GetHzPy(const AHzStr: AnsiString): string; const ChinaCode: array[0..25, 0..1] of Integer = ((1601, 1636), (1637, 1832), (1833, 2077), (2078, 2273), (2274, 2301), (2302, 2432)…

【转】utf-8的中文是一个汉字占三个字节长度

因为看到百度里面这个人回答比较生动,印象比较深刻,所以转过来做个笔记原文链接 https://zhidao.baidu.com/question/1047887004693001899.html 知乎也有更清晰解答 https://www.zhihu.com/question/23374078 1.美国人首先对其英文字符进行了编码,也就是最早的ascii码,用一个字节的低7位来表示英文的128个字符,高1位统一为0: 2.后来欧洲人发现尼玛你这128位哪够用,比如我高贵的法国人字母上面的还有注…

php中处理汉字字符串长度：strlen和mb_strlen

PHP内置的字符串长度函数strlen()无法正确处理中文字符串,它得到的只是字符串所占的字节数.对于GB2312的中文编码,strlen得到的值是汉字个数的2倍,而对于UTF-8编码的中文,就是3倍的差异了(在UTF-8编码下,一个汉字占3个字节). <html> <meta charset="utf-8"> <body> <?php $name="鸣人"; print "姓名的长度为:".mb_str…

将汉字取模软件中的汉字放到keil5中显示

最近因为要使用STM32做毕业设计,需要用LCD显示中文,STM32开发板用的是原子的战舰STM32开发板,给的LCD显示例程里貌似没有中文显示,那么需要自己去编写中文显示程序. 软件编写对我来说并不是什么难事,关键就是在这个过程中遇到了一个非常奇葩的问题. 我用的取模软件是PCtoLCD2002.exe,这在很多地方都能找到.生成字模后,在每一个字模的最后有对应的中文注释,但是将生成的字模复制到程序中发现一个问题,中文显示成了问号,显示如下: 我想,这很简单,无非就是中文编码格式不一样嘛,新建…

Jquery Validate自定义验证规则，一个汉字等于两个字符长度

使用Jquery validate时写的一些东西,在这里做个笔记在使用 Jquery validate 的minlength和maxlength进行文本框内容长度验证的时候,对于一个汉字的长度检测结果是1个字符长度, 在这里我想让一个汉字的长度为2个字符长度,下面记录一下实现方法. 首先我们定义一个需求,比如下面文本框,我们想让输入的用户名长度不能超过10个字符(一个汉字为两个字符长度). 用户名:<input type="text" name="username&q…

SQL中把汉字转换拼音码

思路:在SQL中创建一个函数fn_GetPy(),函数的输入参数是一个汉字字符串,返回值是拼音码字符串. 创建函数语句: CREATE function fn_GetPy(@str nvarchar(4000)) returns nvarchar(4000) --WITH ENCRYPTION as begin declare @intLen int declare @strRet nvarchar(4000) declare @temp nvarchar(100) set @intLen =…

【在UTF-8中，一个汉字为什么需要三个字节？（转）】的更多相关文章