一、coding:utf-8

让我们先来看一个示例，源码文件是utf-8格式：

print('你好 python')

当使用python2执行该程序时会收到一下报错：

File "./hello_world.py", line 2

SyntaxError: Non-ASCII character '\xe4' in file ./hello_world.py on line 2, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

错误提示的意思就是存在非ASCII字符，但是却没有encoding declared，同时给了一个连接并说明包含详细原因，这个链接是一个PEP（python enhancement proper）。

这个PEP的内容总结下来就是：

这行代码用于声明代码文件的编码格式，这个信息可以帮助python解析器使用指定的正确编码来解释代码文件。这样就可以允许直接在代码中使用utf-8编码了。

另外需要注意的是：声明的编码格式要和代码文件的格式一样才行，否则会报错。

来看另外一个例子：

# -*- coding:utf-8 -*-

print('你好 python')

将这段代码保存为ANSI格式，并执行，会得到以下报错：

$ python ./hello_python.py

  File "./hello_python.py", line 2

SyntaxError: (unicode error) 'utf-8' codec can't decode byte 0xc4 in position 0: invalid continuation byte

所以说指定编码的时候也不能全部统一指定为utf-8，而是要根据源码文件的格式来指定，两者要一致才行。

另外又在python的官方文档找到一个说明：

意思就是说：默认情况下，python解释器（python2）把源代码文件当做ASCII编码来处理，如果源码文件是其他格式就需要通过一个特殊的注释来说明，也就是：coding:utf-8，当然编码格式支持多中，具体看codecs的支持情况。

这里其实也是由于python诞生的太早了，那时候Unicode都还没有诞生，因此当时作者也只能选择ASCII作为默认的编码格式。python3已经将默认编码格式改为UTF-8

总结

所以总结下来就是，python2中，该行代码的作用是当源代码文件不是ASCII编码时，通过该行代码告诉python解释器正确的编码格式，这样python解释器才能正常解释其中的字符。

另外，由于python3已经修改为默认情况下，将源代码文件当做UTF-8格式来处理，同时我们写代码时现在通常都会使用UTF-8格式来存储，因此python3其实是不用再写这一行代码的，除非你的源代码文件不是UTF-8格式的。

二、sys.setdefaultencoding('utf-8')

先来看一个例子：

# -*- coding:utf-8 -*-

s = '你好'

s.encode('gb2312')

执行以上代码会收到下面的报错：

Traceback (most recent call last):

  File "./hello_str.py", line 3, in <module>

    s.encode('gb2312')

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)

第一次遇到这个报错时，感觉很奇怪，明明我做的是encode操作，但是为什么报错确实decode失败呢？

这里就是先提一下了：Python里面的编码和解码也就是unicode和str这两种形式的相互转化。编码是unicode->str，相反的，解码就是str->unicode。

而上面定义的s是str类型的，因此当调用encode时，其实默认是先做了decode，转换为Unicode，然后再执行encode编码为指定的编码的，这里报错的原因就是当做隐式编码、解码时使用的默认格式是：ASCII，但是由于s是utf-8的编码，所以解码就失败了。

解决办法：

1、在文件头部添加sys.setdefaultencoding('utf-8')修改默认的编码、解码格式。

import sys

sys.setdefaultencoding('utf-8')

2、避免由程序做隐式的编码、解码，也就是说要明确str-Unicode的转换规则，但是需要编码时要确认类型是Unicode，如果不是就手动指定正确的解码格式转换为Unicode。

s.decode('utf-8').encode('gb2312')

总结

setdefaultencoding主要在编码、解码没有明确指明编码、解码格式的时候使用。

三、参考资料

1、PEP 263

2、source-code-encoding

也来谈谈python编码的更多相关文章

(转载) 浅谈python编码处理
最近业务中需要用 Python 写一些脚本.尽管脚本的交互只是命令行 + 日志输出,但是为了让界面友好些,我还是决定用中文输出日志信息. 很快,我就遇到了异常: UnicodeEncodeError: ...
Python 编码简单说
先说说什么是编码. 编码(encoding)就是把一个字符映射到计算机底层使用的二进制码.编码方案(encoding scheme)规定了字符串是如何编码的. python编码,其实就是对python ...
Python之路3【知识点】白话Python编码和文件操作
Python文件头部模板先说个小知识点:如何在创建文件的时候自动添加文件的头部信息! 通过:file--settings 每次都通过file--setings打开设置页面太麻烦了!可以通过:View ...
python编码规范
python编码规范文件及目录规范文件保存为 utf-8 格式. 程序首行必须为编码声明:# -*- coding:utf-8 -*- 文件名全部小写. 代码风格空格设置用空格符替换TAB符. ...
【转】python编码的问题
摘要: 为了在源代码中支持非ASCII字符,必须在源文件的第一行或者第二行显示地指定编码格式: # coding=utf-8 或者是: #!/usr/bin/python # -*- coding: ...
转载：谈谈Unicode编码，简要解释UCS、UTF、BMP、BOM等名词
转载: 谈谈Unicode编码,简要解释UCS.UTF.BMP.BOM等名词这是一篇程序员写给程序员的趣味读物.所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级 ...
【转】python编码规范
http://blog.csdn.net/willhuo/article/details/49300441 决定开始Python之路了,利用业余时间,争取更深入学习Python.编程语言不是艺术,而是 ...
python 编码 UnicodeDecodeError
将一个py脚本从Centos转到win运行,出错如下: UnicodeDecodeError: 'gbk' codec can't decode byte 0xff in position 0: il ...
Python编码/文件读取/多线程
Python编码/文件读取/多线程个人笔记~~记录才有成长编码/文件读取/多线程编码常用的一般是gbk.utf-8,而在python中字符串一般是用Unicode来操作,这样才能按照单个字 ...

随机推荐

Clumsy Keke【模拟+三维数组】
Clumsy Keke 题目链接(点击) Problem Description Keke is currently studying engineering drawing courses, and ...
C#构造函数 -0028
默认构造函数声明基本构造函数的语法就是声明一个与类同名的方法,但该方法没有返回类型: public class MyClass { public MyClass() { } // rest of c ...
ZooKeeper使用入门
ZooKeeper简介 ZooKeeper是一个分布式的,开源的分布式应用程序协调服务,是Hadoop的子项目之一.它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护.域名服务.分布式 ...
add shell 出现 error: no devices/emulators found
解决方案: adb kill-server adb reconnect
11.实战交付一套dubbo微服务到k8s集群(3)之dubbo微服务底包镜像制作
1.下载jre镜像并推送到harbor [root@hdss7- ~]# docker pull registry.cn-hangzhou.aliyuncs.com/yfhub/jre8:8u112 ...
Tensorflow入门学习笔记汇总
一.环境准备 1.安装python:下载地址https://www.python.org/downloads/windows/下载并安装(推荐python3) 2.安装对应python版本的库:htt ...
如何在 asp.net core 3.x 的 startup.cs 文件中获取注入的服务
一.前言从 18 年开始接触 .NET Core 开始,在私底下.工作中也开始慢慢从传统的 mvc 前后端一把梭,开始转向 web api + vue,之前自己有个半成品的 asp.net core ...
函数进化到Lambda表达式的三过程
假如我们想要从一个整型数组中取出其中是奇数的选项,其实现方式有很多, 接下来通过三种方法的对比理解Lambda表达式的用途,需要了解的朋友可以参考下 //声明委托类型 public d ...
JavaScript中bool类型的转化
JavaScript 中 if() 圆括号中的表达式将被看做布尔值来处理.这时就涉及到一些转化的问题. 1.特殊值undefined和null变成false. 2.数字0和NaN变成false. 3. ...
.netcore开发环境和服务器注意事项
对于开发环境,如果你需要使用.netcore命令的话,你需要安装SDK:如果你还需要运行.netcore的网站的话,你必须还要安装它的[runtime]和[hosting server]: 对于服务器 ...

也来谈谈python编码

一、coding:utf-8

总结

二、sys.setdefaultencoding('utf-8')

总结

三、参考资料

也来谈谈python编码的更多相关文章

随机推荐

热门专题