https://www.cnblogs.com/hell8088/p/9184336.html

多年来闲麻烦,只记录笔记,不曾编写BLOG,本文为原创,如需转载请标明出处

废话不说,直奔主题

  • ascii
 
计算机只接受 “高”、“低”电压,所以使用二进制  1  和  0 分别代表高低电压
ascii  将 “字符”和“符号”转为二进制,在通过二进制转为电压让计算机识别
 
0-127 是 7 位ASCII 码的范围,是国际标准  0111 1111
 
  • byte 字节
 
1 byte = 8 bit     就是8位二进制数    在不同语言中,字节范围不应,这主要取决于最高位是不是符号位
 
ascii  就是用一个字节,8位二进制表示一个字符或者符号
 
如 小写字母 a 的 ascii 编码是97,不同进制表示如下
 
二进制:01100001   (高四位 0110 低四位  0001)  
十进制:26 + 25 + 20 = 64 + 32 + 1 = 97
 
了解了ASCII,再来看看其他编码和byte的关系
 
gb2312     两字节     
utf-8          一个 "英文" 字符一字节,一个 "中文" 字符三字节
unicode     所有字符等于 "两个字节"
 
  • UTF-8
 
以 UTF-8 JAVA 中 将字符串转换为字节为例
 
//字符串和byte转换样本
byte[] str2byte = new String("中汉").getBytes("utf-8");
for (byte b : str2byte) {
     System.out.println(b);
}
byte[] byte2str = { -28, -72, -83, -27, -101, -67 };
String str = new String(byte2str, "utf-8");
System.out.println(str);
 
解释:
 
比如 “汉” 这个字要在网络上传输,最终是要使用二进制表示电压
 
unicode 编码表中 “汉”字的编码是0x6C49,
转成UTF-8格式,对照映射表, 0x6C49在0x0800-0xFFFF之间, UTF-8使用用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx
0x6C49 是16进制表示, 6C49  写成二进制是:0110 1100 0100 1001
用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89
 
在 java 中,首先要把汉字转成字节,计算出来的 是 -26,-79,-119,我们发现和E6 B1 89 不同
那么是如何换算呢
E6 => 1110 0110   因为JAVA中 byte 是 -128 ~ 127,高位是符号位
计算方式为    采用补码计算  取反后+1   去掉符号位,0001 1001 + 1 = 16+8+1 + 1 = 26
高位1 位负数, 所以 E6 对应 -26, 在通过字节传输给网络流,转成二进制
 
那么使用UTF-8 将一串中英文转成二进制,计算机如何接收呢
 
这个就是UTF-8规则编码,计算机指定了UTF8编码接收二进制并进行转移,当发现字节以0开头,表示这是一个标准ascii字符,直接转义 ,当发现1110开头,就说明接下来的三个字节表示一个汉字,则取3个字节去掉模板后转义,UTF8编码模板如下
 
 
1字节 0xxxxxxx
2字节 110xxxxx 10xxxxxx
3字节 1110xxxx 10xxxxxx 10xxxxxx
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
 
  • base64
 
作用:
  主要用于将二进制数据转换成可见字符
 
由来:
  早期 MIME 协议 Multipurpose Internet Mail Extensions 只能传输ASCII字符,这样非英文字符和图片就无法在邮件中发送
  (ASCII包含的字符少,GBK等包含的中文在ascii表示不了,所以有UTF)
 
  BASE64就是将这些二进制数据转换成64个定义好的ASCII字符,一方面可以传输,一方面可以也可见,比如XML里加入二进制图片持久化,就是用 BASE64 进行存储
  BASE64  最小使用单元是3字节,24bit   转换后将24bit且成4块,然后每块是6bit,因为计算机存储字节是8bit,所以在高位补两个0
  
  e.g.    100101  转换后   00100101
  这样就得到了4个ascii  字符,不过长度也随之增加
 
  另外,URL里不支持 /  +这类字符,所以一般使用  safe  url base 64编码,由于BASE64是3*8 = 4*6 的游戏,
 
  注意:当转换成6位时,需要查BASE64编码表,而不是查ASCII表,另外,当转化不是3的倍数时,看下图
 
  (借用网上的一张图片 http://www.cnblogs.com/caoyc/p/5794720.html)
  

  这里再举例小写 a

  01100001   转换后是   011000   010000  补4个0变成2字节,得到YQ,BASE64要求4个字节  补两个 ==
  得到  YQ==
 
文章参考:http://www.cnblogs.com/caoyc/p/5794720.html
         

byte以及UTF-8的转码规则的更多相关文章

  1. 用node研究axios前后端交互状态码规则

    研究状态码规则围绕我的脑袋有些时间了. 加上最近比较不忙,开始了这方面的研究. 后端用的是直接跑过的node框架,express.可以直接参考express官方网站:http://www.expres ...

  2. babel ---- presets字段设定转码规则

    presets字段设定转码规则,官方提供以下的规则集,你可以根据需要安装. # ES2015转码规则 $ npm install --save-dev babel-preset-es2015 # re ...

  3. ascii 和 byte以及UTF-8的转码规则

    多年来闲麻烦,只记录笔记,不曾编写BLOG,本文为原创,如需转载请标明出处 废话不说,直奔主题 ascii     计算机只接受 “高”.“低”电压,所以使用二进制  1  和  0 分别代表高低电压 ...

  4. hive表命名规范 源码规则

    tablename 进来前已经把"`","."等过滤掉了,所以就是单词字符喽 \w搞定 \w包含_ 哈哈 规范就是 a-z A-Z 0-9 _ 也就是传说中的单 ...

  5. 从字节码角度分析Byte类型变量b++和++b

    1. 下面是一到Java笔试题: public class Test2 { public void add(Byte b) { b = b++; } public void test() { Byte ...

  6. 微信公众号 扫码支付 模式二 demo

    扫码支付 本文附有代码,在下方,如果不熟悉场景的可以看看下面的场景介绍 场景介绍 官网介绍地址:https://pay.weixin.qq.com/wiki/doc/api/native.php?ch ...

  7. Solr4.8.0源码分析(10)之Lucene的索引文件(3)

    Solr4.8.0源码分析(10)之Lucene的索引文件(3) 1. .si文件 .si文件存储了段的元数据,主要涉及SegmentInfoFormat.java和Segmentinfo.java这 ...

  8. Hadoop源码分析之读文件时NameNode和DataNode的处理过程

    转自: http://blog.csdn.net/workformywork/article/details/21783861 从NameNode节点获取数据块所在节点等信息 客户端在和数据节点建立流 ...

  9. 关于JAVA中Byte数据类型二进制赋值运算报错问题

    自从JDK7更新之后,新增了二进制变量的表示,支持将整数类型用二进制来表示,用0b开头: 例如: byte b= (byte) 0b1000_0001; short s = (short) 0b100 ...

随机推荐

  1. HDFS介绍及简单操作

    目录 1.HDFS是什么? 2.HDFS设计基础与目标 3.HDFS体系结构 3.1 NameNode(NN)3.2 DataNode(DN)3.3 SecondaryNameNode(SNN)3.4 ...

  2. CA证书和TLS介绍

    数字签名 用自己的私钥给数据加密就叫数字签名 公钥传输威胁 在A和B的通信中,C可以把自己的公钥发给A,让A把C的公钥当成B的公钥,这样的话.B拿到加密数据反而无法解密,而C却可以解密出数据.从而实现 ...

  3. element

    <el-table-column label="地址" prop="address"> <template slot-scope=" ...

  4. 开发十年,只剩下这套Java开发体系了

    蓦然回首自己做开发已经十年了,这十年中我获得了很多,技术能力.培训.出国.大公司的经历,还有很多很好的朋友.但再仔细一想,这十年中我至少浪费了五年时间,这五年可以足够让自己成长为一个优秀的程序员,可惜 ...

  5. (转)从拜占庭将军问题谈谈为什么pow是目前最好的共识机制

    我们知道基于区块链技术现在有很多的共识机制,包括不限于POW,POS,DPOS,PBFT……,我先不说为什么我最认可POW,我们先来看看著名的拜占庭将军问题: 拜占庭帝国即中世纪的土耳其,拥有巨大的财 ...

  6. JDK 1.8源码阅读 ArrayList

    一,前言 ArrayList是Java开发中使用比较频繁的一个类,通过对源码的解读,可以了解ArrayList的内部结构以及实现方法,清楚它的优缺点,以便我们在编程时灵活运用. 二,ArrayList ...

  7. word2vec模型评估方案

    1.word2vec参数详解 · sentences:可以是一个·ist,对于大语料集,建议使用BrownCorpus,Text8Corpus或·ineSentence构建.· sg: 用于设置训练算 ...

  8. vue proxyTable 跨域问题。

  9. Mac上安装PHP、Apache、MySQL

    Mac自带php5.6版本,要升级到php7.3 步骤如下 1,brew 安装php ,如果没有安装,访问https://brew.sh/index_zh-cn安装在终端输入以下内容,不用指定安装ph ...

  10. PHP的数组合并

    1. array_merge 字符索引:后面的覆盖前面的. 如果输入的数组中有相同的字符串键名,则该键名后面的值将覆盖前一个值. 混合索引:如果数组包含数字键名,后面的值将不会覆盖原来的值,而是附加到 ...