python2.7.x的字符串编码到底什么鬼？(中文和英文的处理)

一直以来我其实一直对python的编码弄得非常晕，能正常编码，也能处理一些情况。但是始终不明白有些问题究竟为何出，原因是什么，为什么要这样用。

今天晚上正好好好研究了一番解答了自己心中的困惑。

Q:python2.7.x里面的中文表示到底是什么鬼？

A:直接来看看

In [23]: x = '好不好喝都要喝'

In [24]: x

Out[24]: '\xe5\xa5\xbd\xe4\xb8\x8d\xe5\xa5\xbd\xe5\x96\x9d\xe9\x83\xbd\xe8\xa6\x81\xe5\x96\x9d'

这个x打印值相信熟悉编码的盆友都知道，这是utf-8编码。也就是说python2.7.x 在默认情况下将中文默认转到了utf-8编码。

这里type(x)得到结果是str

Q:python2.7.x里的unicode究竟什么鬼？

A:还是通过例子来看看

In [16]: x = u'好不好喝就很好喝'

In [17]: type(x)

Out[17]: unicode

在2.7.x在中，u写在字符串前面将会将一个字符串转成unicode对象。

Q:python2.7.x中unicode可以和str相加吗？

A:还是来看例子

In [62]: z = '好不好喝'

In [63]: x = u'好不好喝都要喝'

In [64]: z+x

---------------------------------------------------------------------------

UnicodeDecodeError                        Traceback (most recent call last)

<ipython-input-64-f964ff206363> in <module>()

----> 1 z+x

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 0: ordinal not in range(128)

熟悉的报错，可见在python2.7.x中，unicode中文和utf8中文是不能相加的因为是不同类型。

Q:那么英文字符串可以相加吗？

A:可以。具体就不掩饰了大家可以自己试试。而且最终得到的结果会被转成全unicode

这两个库在对无论utf8还是unicode对象进行中文编码的时候，都会将内容转成unicode再编码。最后你拿到结果decode之后就变成了unicode对象，想要再拿到utf8对象，就需要再encode一次才可以了。

一不注意就踩坑。

python2.7.x的字符串编码到底什么鬼？(中文和英文的处理)的更多相关文章

php 字符串截取，支持中文和其他编码
function.php //使用方法 $content= mb_substr($content,0,25,'utf-8'); /** * 字符串截取,支持中文和其他编码 * @static * @a ...
我的Java开发学习之旅------>工具类：Java使用正则表达式分离出字符串中的中文和英文
今天看到一个工具类使用正则表达式将一大段字符串中的中文和英文都分离出来了,在此记录一下,读者可以收藏! import java.util.ArrayList; import java.util.Col ...
Python2和Python3的字符串编码和类型
一.字符串编码和类型任何编码格式的字符串,都可以和Unicode互相转换. gbk -> utf8 # 将字符串按指定格式进行解码,返回Unicode字符串unicode_str = gbk_ ...
JS判断字符串长度的5个方法（区分中文和英文）
目的:计算字符串长度(英文占1个字符,中文汉字占2个字符) 方法一: 代码如下: String.prototype.gblen = function() { var len = 0; fo ...
C#获取字符串字符的位数（区分中文和英文长度）
请看以下代码 1 private static int GetStrLength(string str) 2 { 3 if (string.IsNullOrEmpty(str)) return 0; ...
java是用utf-16be编码方式编的。中文和英文都是两个字节
Python2和Python3中的字符串编码问题解决
Python2和Python3在字符串编码上是有明显的区别. 在Python2中,字符串无法完全地支持国际字符集和Unicode编码.为了解决这种限制,Python2对Unicode数据使用了单独的字 ...
基于Python的数据分析(2)：字符串编码
在上一篇文章<基于Python的数据分析(1):配置安装环境>中的第四个步骤中我们在python的启动步骤中强制要求加载sitecustomize.py文件并设置其默认编码为"u ...
Python的字符串编码
本文用实验详细地演示了Python2和Python3在字符串编码上的区别. 在Python2中,字符串字面量对应于8位的字符或面向字节编码的字节字面量.这些字符串的一个重要限制是它们无法完全地支持国际 ...

随机推荐

MATLAB——单层感知器
1.创建一个感知器实例 % example4_1.m p=[-,;-,] % 输入向量有两个分量,两个分量取值范围均为-~ % p = % % - % - t=; % 共有1个输出节点 net=ne ...
Python Tornado集成JSON Web Token方式登录
本项目github地址前端测试模板如下: Tornado restful api 项目项目结构如下: 项目组织类似于django,由独立的app模块构成. 登录接口设计模式:post -> ...
深入浅出的webpack构建工具---webpack3版本的CommonsChunkPlugin详解(六)
阅读目录一:什么是CommonsChunkPlugin, 它的作用是什么? 二:webpack3中CommonsChunkPlugin配置项及含义? 回到顶部一:什么是CommonsChunkPl ...
稳压二极管&TVS二极管
稳压二极管稳压二极管利用的特性是:二极管被反向击穿之后,随着电流的变化,稳压二极管两端电压维持不变的特性: 普通二极管反向击穿后就坏了,但是稳压二极管却可以恢复,而且在被击穿后处在正常的工作状态: ...
python多版本共存问题（以2.7和3.5系列版本为例）
1.0 下载Python2.7x和Python3.5x版本 2.0 安装Python 3.0 配置环境变量,分别添加至path路径 4.0 只修改Python27文件中的.exe文件(这样系统默认为P ...
【LeetCode232】 Implement Queue using Stacks★
1.题目描述 2.思路思路简单,这里用一个图来举例说明: 3.java代码 public class MyQueue { Stack<Integer> stack1=new Stack& ...
Luogu3232 HNOI2013 游走高斯消元、期望、贪心
传送门这种无向图上从一个点乱走到另一个点的期望题目好几道与高斯消元有关首先一个显然的贪心:期望经过次数越多,分配到的权值就要越小. 设$du_i$表示$i$的度,$f_i$表示点$i$的期望经过次 ...
C#实现一张塔松叶
前段时间,Insus.NET有实现一组字符串在输出时,靠左或靠右对齐.<输出的字符靠右对齐>http://www.cnblogs.com/insus/p/7953304.html 现在In ...
RabbmitMQ-工作队列及相关概念
工作队列-WorkQueue 实现功能: 将耗时的任务分发给多个工作者设计思想: 避免直接去做一件资源密集型的任务,并且还得等它完成.因此将任务安排后再去做.将任务封装为一个消息,发到队列中.一个工 ...
Caffe源码中caffe.proto文件分析
Caffe源码(caffe version:09868ac , date: 2015.08.15)中有一些重要文件,这里介绍下caffe.proto文件. 在src/caffe/proto目录下有一个 ...

python2.7.x的字符串编码到底什么鬼？(中文和英文的处理)

python2.7.x的字符串编码到底什么鬼？(中文和英文的处理)的更多相关文章

随机推荐

热门专题