编码-转义2-mark

文本编辑器utf8

"一".encode("gbk")

保存："一"+utf8     保存为16进制的\xe4\xb8\x80，\x标识了这是utf8码

内存：\xe4\xb8\x80+utf8   "一"即\u4e00，\u标识了这是Unicode码

保存："一"即\u4e00   \xd2\xbb，\x标识了这是gbk码

所以，utf8码和gbk码都用\x标识，Unicode码用\u标识；而\x和\u本质上都表示二进制，只是标识的编码表不同，\u单独的表示Unicode码，而\x表示其他所有的编码

"一".encode("gbk").decode("Shift_JIS")

忽略此时的编码格式，仅当作16进制\xd2\xbb 在日本编码表中根据16进制，找到对应的字符"ﾒｻ"(通过查看Shift_JIS编码表，确实如此，\xd2对应着"ﾒ")

所以，本质上

encode：1.根据现有的16进制码+编码格式找到Unicode字符，2.根据Unicode字符找对应编码格式的16进制编码，Unicode是中转站

decode：根据现有的16进制编码(忽略编码格式)，在指定的编码表中寻找字符，不需要Unicode做中转，直接在指定的编码表中查找，一步到位

python命令行中，直接回车和print

命令行输入的时候本身也是个文本编辑器，所以回车会

转义：字母前加"\"来表示常见的那些不能显示的ASCII字符

即不增加现有字符的情况下，却想增加表示，即用现有的字符组合产生新的表示，即斜杠"\"+字符

\不表示其他的，专门用来转义其他已经存在的字符，以增加表示

有\a \n \t 等

而这些表示有对应的字符串，\a用"\x07"这个整体的字符串来表示

即："\x07"来表示蜂鸣，但太长了谁记得住啊，所以不如用一个\a

而\n比较特殊，它没有对应的难记的字符串

\0yy，\xyy，\uyy比较特殊，需要后面跟其他的字符，而\a,\t直接表示了一个信息

，yy被标识为16进制，将16进制转为10进制，然后在编码表中查出对应的字符

首先区分输入和输出，直接输入的永远都是字符，不可能是字符的编码(在不用方法的情况下)

>>> "a"

>>> "\x07"

没有什么不同，都是字符串，只不过"\x07"看着'像'16进制而已，但它真的不是16进制

而print(字符串)，本身是个方法，方法即：对字符串做处理，返回处理后的字符串

而print最显著的功能就是，转义，识别转义字符，如\a，；本质是将代码信息翻译成人类的信息；字符串'\a'被翻译成一个蜂鸣声

输入b""表示执行编码，而输出的b""表示这是一个编码后的结果

编码

1.bytes，对字符串根据指定的编码格式进行编码，等价于.encode("编码格式")

bytes("我","utf8")，返回b'\xe6\x88\x91'

2.   b，bytes的特例，只支持ascii编码，所以也就不需要用函数的形式

b"ab"=="ab".encode("ascii")，返回True

输出：不表示成16进制的字符串，而是简写，直接写成b"a"，表示确实是个字节流，而二进制则是a对应的ascii码10进制转换成的二进制

>>> "我".encode()    返回b'\xe6\x88\x91'

>>> "a".encode()   返回b"a"

都是表示的字节流，只不过对于ascii码简写了

解码

1.没有类似于bytes的方法，对应的根据指定编码进行解码的方法

u，只支持unicode-escape的解码

decode("unicode-escape")

u"\u6211"返回"我"，而Unicode编码表中的\u6211对应字符"我"

字符集：普通字符(万国字符集)+加上转义字符

字符的编码：特别的，转义字符的编码，\a \b都可以通过命令行看到，但\n和\t无论是命令行直接回车还是.encode()，都不显示，只显示b"\n"，但也仅仅是不显示而已，本质上是有16进制编码的

print("\a")是蜂鸣，\a是一个字符

print("\z")是\z，而\z是两个字符，即"\"和"z"

但是，python中是不允许"\"单独出现的；所以在命令行中输出\z时为\\z，指明这不是一个字符，而是两个字符

将特殊的转义字符作为单个字符并入字符集中，把转义和解码编码联系起来

命令行是做了显示处理的，才会出现不一致的情况(如：\a输出\a，但\z输出\\z)，是为了便于查看字符情况

unicode-escape与utf8/gbk没什么区别，都是字符编码格式，只不过是Unicode编码

特殊的转义1：\x \0，而\0与\x等同，即"\x07"与"\007"

\转后面的一个字符
\x 和\0转后面的两个字符

如："\xab"，表示a，b的16进制合起来在编码表中对应的字符，即'«'，而"\xab".encode()就是'«'.encode()

"\0ab"等同

所以"\a"与"\x07"是等同的，只不过用\x07的方式直观的显示了\a这个字符在编码表中的位置，第7个

这样的话，字符集又扩充了，"\x07" "\xab" "\007" "\007"都是一个字符

但文件中的\其实是\\，所以\x07其实是\\x07

特殊的字符串2：\u440e，Unicode中的编码，转义后面4个字符，且这4个形成的字符串必须在Unicode编码表中存在；

\xyy，yy表示一个字节，而一个字节内是ascii码，所以不存在编码对应的字符不同的情况；

就是变相的给ascii字符都起了个别名

而\uyyyy，指明了必须在Unicode编码表中找对应的字符，更不存在什么问题了

所以在文件中如果\u后面的四个字符形成的字符串在Unicode编码中没有，就会报错

二进制写入，读取，不存在编码问题；是一个字节的写，一个字节的读

问题：

拿到的响应直接以二进制保存，二进制中有\u，但后面内容不对，所以在读的时候就错了

文件读取问题1：

\u的问题：utf/unicode-escape对ascii字符的处理是一致的，但对汉字不一致；

unicode-escape编码产生字节流，用utf8解码，英文及标点没问题，但遇到unicode码，utf8解决不了，

以文本编辑器打开查看的时候，默认就是用utf8打开的，所以Unicode码被按照Unicode编码表翻译过来，就以\u6211\u9978的形式显示处理

实际用utf8解码的时候也是一样，打印出来的是\u6211\u997这种形式

所以，根本还是编码和解码不同，如果有中间环节，那么拿到的文件用utf8读出来，里面就有\u6211\u9978这种形式

中间环节：

对unicode-escape编码的数据用utf8解码，然后用utf8编码保存，保存的实际是"\u6211\u9978".encode()，即b'\xe6\x88\x91\xe9\xa5\xb8'

我们拿到后用utf8解码，解出来自然是"\u6211\u997"这种字符串

文件读取问题2：

除了问题1以外

以wb写，用utf8读，出现\uxxx的问题

用pycharm打开，看右下角编码是什么，就用什么解

另外：

保存文件，肯定保存的编码后的，不存在直接存字符的，只不过open的时候指定了编码，才不用我们手动的.encode()；

wb是一个字节的写入，一个字节的读出解析，对于多个字节的如汉字，就会出错

编码-转义2-mark的更多相关文章

Spring HtmlUtils把HTML编码转义，可将HTML标签互相转义
Spring HtmlUtils把HTML编码转义,可将HTML标签互相转义 2014年09月05日 ⁄ 综合 ⁄ 共 372字 ⁄ 字号小中大 ⁄ 评论关闭 org.springframe ...
防止xss漏洞-编码转义
用JS进行转义还是用PHP进行转义,最后存入数据库的是什么形式比如:用户输入: <script>alrt(0);</script>那数据库里面存储的是源数据还是转以后的数据: ...
HTTP URL 字符转义字符编码、 RFC 3986编码规范
一.为什么要编码转义通常如果一样东西需要编码,说明这样东西并不适合传输.原因多种多样,如Size过大,包含隐私数据,对于Url来说,之所以要进行编码,是因为Url中有些字符会引起歧义. 例如Url参 ...
Java 字符编码（一）Unicode 字符编码
Java 字符编码(一)Unicode 字符编码 Unicode(http://www.unicode.org/versions/#TUS_Latest_Version) 是一个编码方案,说白了希望给 ...
字符集和编码——Unicode(UTF&UCS)深度历险
计算机网络诞生后,大家慢慢地发现一个问题:一个字节放不下一个字符了!因为需要交流,本地化的文字需要能够被支持. 最初的字符集使用7bit来存储字符,因为那时只需要存下一些英文字母和符号.后来虽然扩展到 ...
【转】字符编码笔记：ASCII，Unicode 和 UTF-8
原文:http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html https://www.key-shortcut.com/ ...
HTML转义
HTML转义模板对上下文传递的字符串进行输出时,会对以下字符自动转义小于号< 转换为< 大于号> 转换为> 单引号' 转换为' 双引号" 转换为 " 与 ...
Django HTML 转义
HTML转义模板对上下文传递的字符串进行输出时,会对以下字符自动转义小于号< 转换为< 大于号> 转换为> 单引号' 转换为' 双引号" 转换为 " 与 ...
ASP.NET 4（和ASP.NET MVC 2）中输出HTML编码的新语法<％：％>
今天的文章介绍了ASP.NET 4中引入的一个小而且非常有用的新语法功能 - 这是在代码块中自动对输出进行HTML编码的功能.这有助于保护您的应用程序和站点免受跨站点脚本注入(XSS)和HTML注入攻 ...

随机推荐

支付宝AopSdk在dotnet core下的实现
随着项目都迁移到了dotnet core下,阿里的支付宝也需要随着项目迁移.之前在.Net Framework下用到了阿里提供的AopSdk和F2FPay两个程序集,支付宝官方提供的只支持Framew ...
H5 背景图片自适应屏幕问题解决办法
今天也是偶然遇到这个问题的,平成很少用到关于css的内容,就在网上找了很多个方法,最后总结以下几种很实用的方法方法1: <style> body{ background:url(beij ...
python生成多维数组方法总结（多维创建有问题的情况）
1.一维 list1=[]* #[,,,,] list2=np.arange() #[,,,,] 2.二维(注意) list2=[[]*]* 这种创建是有问题的!! print(list2)list2 ...
修改centos服务器时区并同步最新时间
rm -rf /etc/localtime ln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime ntpdate cn.pool.ntp.org ...
TiDB 压力测试报告
(转载自公众号DBATech) 一.测试环境 1.tidb 集群架构: 测试使用最基本的TiDB架构.即 3个tidb-server节点+ 3个tikv节点 + 3个pd节点. 2.tidb集群的部署 ...
Topshelf + QuartzNet 实现挂载在 WIndows Services 中的定时任务
直接贴代码了: 首先我们可以把所有的 Job 放到一个单独的 DLL 中,好处是可以共享这些业务 Job.比如我们新建一个 QuartzNetDemo.WinService.Jobs 的类库. 然后, ...
【机器学习笔记】Python机器学习基本语法
本来算法没有那么复杂,但如果因为语法而攻不下就很耽误时间.于是就整理一下,搞python机器学习上都需要些什么基本语法,够用就行,可能会持续更新. Python四大类型元组tuple,目前还没有感受 ...
C# 方法的out、ref、params参数
一.out参数实例 [实例]求一个数组中的最大值.最小值.总和.平均值 class Program { static void Main(string[] args) { //写一个方法求一个数组中 ...
Centos下mysql8忘记root密码的解决办法
首先,打开配置文件/etc/my.cnf,在末尾添加一行: skip-grant-tables 然后重启mysql服务: service mysqld restart 然后可以直接登录到mysql,在 ...
Javaweb常用解决问题连接
1.javaweb的idea如何创建及配置web项目 https://www.jianshu.com/p/8d49d36a3c7e 2.servlet的建立以及部署 https://blog.csdn ...

编码-转义2-mark

编码-转义2-mark的更多相关文章

随机推荐

热门专题