配置: Python 2.7 + Sublime Text 2 + OS X 10.10

本文意在理清各种编码的关系并以此解决 Python 中的编码问题。

1 编码基本概念

只有先了解字符表、编码字符集、字符编码三者的基本概念,才能直入编码问题的核心。

1.1 字符表 | Abstract Character Repertoire

字符表是一个系统支持的所有可读或者可显示的抽象字符的集合。也就是说字符表里面的元素是可显示的字符。例如:“A”、“B”、“文”这样的元素。

1.2 编码字符集 | Coded Character set

编码字符集是这样的一个集合,集合中的元素是字符在字符表中的位置。例如元素 65 代表字符 “A” 在字符表中的位置。

计算机统一使用 Unicode 作为编码字符集。

1.3 字符编码 | Character Encoding Form

由于 Unicode 这个编码字符集十分庞大,每个元素都需要用好几个字节表示,为了节省存储空间以及数据传输成本。人们使用字符编码将 Unicode 表示的字符串转换成字节序列

将字节序列转换成 Unicode 编码的过程称为解码(decode);将 Unicode 编码转换成字节序列的过程称为编码(encode)

记住字符编码的目的是为了节省存储空间以及数据传输成本。

常见的字符编码有 ASCII、UTF-8、GBK等,应用最广泛的字符编码是 UTF-8 。



2 Python 的编码字符集

Python 出现的时候 Unicode 的标准还没制定好,所以 Python 2 只支持 ASCII 编码字符集。ASCII 编码字符集和 ASCII 字符编码是同一个集合,也就是说 ASCII 码是没有进行转换直接进行存储的。

所以 Python 中的字符串默认只支持 ASCII 中的字符,为了支持 Unicode 字符,需要在包含 非 ASCII 码字符的字符串前面添加 u,像这样:

u"中文"

3 Python 的字符编码

Python 默认支持的字符编码也是 ASCII,一般都不够用,我们通常希望将其编码为 UTF-8(UTF-8 without BOM),为了实现这一目标,需要在文件头部进行字符编码声明,并将文件保存为 UTF-8 格式。

字符编码声明必须放在文件的前两行,声明方式如下:

# -*- coding:utf-8 -*-

或者,

#coding=utf-8

Python 对这类声明的格式要求比较严格,所在位置错误或者中间多添加空格都会导致声明失效。

  • 如果未添加声明,会出现类似这样的错误 SyntaxError: Non-ASCII character '\xe4' in file .../sample.py on line 4, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

  • 如果添加了 UTF-8 的声明,但是文件保存为 GBK 格式,会出现错误 [Decode error - output not utf-8]

3.1 Sublime Text 2 编译错误

在 ST2 中,即使进行了正确的设置,依然会出现错误 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128) 。这是由于 ST2 在输出字符串时无法识别 Python 对标准输入输出的编码,而默认使用了 ASCII 编码,解决方案是这样的,通过 Sublime Text 2 -> Preference -> Browse Packages 找到 Python 文件夹,打开 Python.sublime-build 文件,添加一个 env 域:

"env": {"PYTHONIOENCODING": "utf8"},

另一个解决方案是在 .py 文件中对字符串进行显式的编码,例如:

print u"中文".encode("utf-8")

关于该问题的详细描述参见 有关 Python 2 和 Sublime Text 中文 Unicode 编码问题的分析与理解

4 附录

最后添加一个例子以方便理解。

文件 Python.sublime-build

{
"cmd": ["python2.7", "-u", "$file"],
"path":"/System/Library/Frameworks/Python.framework/Versions/2.7/bin/",
"file_regex": "^[ ]*File \"(...*?)\", line ([0-9]*)",
"env": {"PYTHONIOENCODING": "utf8"},
"selector": "source.python"
}

文件 sample.py

#! /usr/bin/env python
#coding=utf-8 print u"你好,"
print u"我是唐衣可俊!".encode('utf-8')

输出:

你好,
我是唐衣可俊!

参考链接

十分钟搞清字符集和字符编码(对字符集和字符编码进行了比较系统详尽的介绍)

有关 Python 2 和 Sublime Text 中文 Unicode 编码问题的分析与理解(关于 ST2 对 Unicode 字符输出报错的问题进行了详细的分析)

Python 的字符编码的更多相关文章

  1. Python基础-字符编码与转码

    ***了解计算机的底层原理*** Python全栈开发之Python基础-字符编码与转码 需知: 1.在python2默认编码是ASCII, python3里默认是utf-8 2.unicode 分为 ...

  2. Python的字符编码

    Python的字符编码 1. Python字符编码简介 1. 1  ASCII Python解释器在加载.py文件的代码时,会对内容进行编码,一般默认为ASCII码.ASCII(American St ...

  3. Python常用字符编码(转)

    Python常用字符编码   字符编码的常用种类介绍 第一种:ASCII码 ASCII(American Standard Code for Information Interchange,美国信息交 ...

  4. Python常见字符编码间的转换

    主要内容:     1.Unicode 和 UTF-8的爱恨纠葛     2.字符在硬盘上的存储     3.编码的转换     4.验证编码是否转换正确     5.Python bytes类型 前 ...

  5. python 3字符编码

    python 3字符编码 官方链接:http://legacy.python.org/dev/peps/pep-0263/ 在Python2中默认是ascii编码,Python3是utf-8编码 在p ...

  6. 转:Python常见字符编码及其之间的转换

    参考:Python常见字符编码 + Python常见字符编码间的转换 一.Python常见字符编码 字符编码的常用种类介绍 第一种:ASCII码 ASCII(American Standard Cod ...

  7. Python遇到字符编码出问题的一个相对万能的办法

    在使用Python做爬虫的过程中,经常遇到字符编码出问题的情况. UnicodeEncodeError: 'ascii' codec can't encode character u'\u6211' ...

  8. Python:字符编码详解

    相关文章 Python中文编码问题:为何在控制台下输出中文会乱码及其原理 1. 字符编码简介 1.1. ASCII ASCII(American Standard Code for Informati ...

  9. Python入门笔记(14):Python的字符编码

    一.字符编码中ASCII.Unicode和UTF-8的区别 点击阅读:http://www.cnblogs.com/kingstarspe/p/ASCII.html 再推荐一篇相关博文:http:// ...

随机推荐

  1. 深度实践KVM(1-8章)

    第一章 企业虚拟化选型与KVM介绍 1.1 KVM的前世今生 1.虚拟化技术的演进过程 软件模拟——>虚拟化层翻译——>容器虚拟化 虚拟化层翻译可以分为: (1)软件捕捉翻译,即软件全虚拟 ...

  2. 超简单!asp.net core前后端分离项目使用gitlab-ci持续集成到IIS

    现在好多使用gitlab-ci的持续集成的教程,大部分都是发布到linux系统上的,但是目前还是有很大一部分企业使用的都是windows系统使用IIS在部署.NET应用程序.这里写一下如何使用gitl ...

  3. Ambari 自定义服务集成原理介绍

    之前,在 github 上开源了 ambari-Kylin 项目,可离线部署,支持 hdp 2.6+ 及 hdp 3.0+ .github 地址为:https://github.com/8418090 ...

  4. 还不知道如何实践微服务的Java程序员,这遍文章千万不要错过!

    作者:古霜卡比 前言 本文将介绍微服务架构和相关的组件,介绍他们是什么以及为什么要使用微服务架构和这些组件.本文侧重于简明地表达微服务架构的全局图景,因此不会涉及具体如何使用组件等细节. 要理解微服务 ...

  5. java基础篇一

    引言 本人系南京一小小学校的大三小小菜鸟,三年来学了很多杂七杂八的,也荒废了大量的时间,马上就要秋招了,之前也看了不少面试题,备选了一些简单的项目,看了不知多少本的几百页厚的各种知识的pdf电子书,发 ...

  6. CCF-CSP题解 201803-3 URL映射

    题目要求写一个简易的URL规则和URL地址匹配的程序. 说说我的思路. 将URL规则和地址都截成片段用结构体\(<type, str[]>\)存储.对于URL规则,\(type\)为0代表 ...

  7. Linux服务器可以ping,但是telnet端口超时,网站wget超时,访问超时的解决办法

    最近无法通过SSH连接Linux服务器,访问该服务器上的HTTP服务也出现异常.可以ping,但是telnet端口超时,网站wget超时,访问超时. 最后排查是内核配置问题 原来是 net.ipv4. ...

  8. PyTorch-网络的创建,预训练模型的加载

    本文是PyTorch使用过程中的的一些总结,有以下内容: 构建网络模型的方法 网络层的遍历 各层参数的遍历 模型的保存与加载 从预训练模型为网络参数赋值 主要涉及到以下函数的使用 add_module ...

  9. 小程序 wx.request请求

    1.wx.request相当于发送ajax请求 微信官方解释 参数 属性 类型 默认值 必填 说明 url string 是 开发者服务器接口地址 data string/object/ArrayBu ...

  10. Vue学习笔记Day1

    1.vue初时 vue安装三种方式: 1:CDN引入 以下推荐国外比较稳定的两个 CDN,国内还没发现哪一家比较好,目前还是建议下载到本地. Staticfile CDN(国内) : https:// ...