系统编码 python编码
编码一直都是一个很让人头疼的问题,尤其是在python里面。花了几天时间,终于把这个问题给弄明白了。
一,什么是编码,编码过程是怎样的?常见的编码方式有哪些?
编码是从一个字符,比如‘哈’,到一段二进制码流的过程。解码是从一段二进制码流到一个字符的过程。
在编码的过程中,会涉及到三个名词:字符,内码,字符集。字符就是终端上显示的各个文字字母等。内码和字符是一一对应的关系。每一个字符都对应一个唯一的内码。内码在内存中的具体实现称为字符集。
注意:严格来说,编码指内码编码成字符集;解码指字符集解码为内码。
ascii不仅仅指英文对应的内码,还包括它的具体实现,也就是它的字符集。它是用一个字节存储每个内码的。
unicode是所有文字(包括英文,中文,日文等)所对应的内码的集合。
unicode的实现方式比较多样,常用的有UTF-8,GBK,GB18030。
其中,UTF-8是一种不定长的内码实现方式。
GB18030兼容GBK,GBK兼容GB2312。
二,系统编码方式查询更改命令有哪些?(linux)
locale是最核心的一个变量。它包括12个基本属性。这12个基本属性构成某个地区的语言习惯,日期,货币,单位等文化因素。LC_ALL是强制修改locale信息的命令。LANG是locale的默认设置命令。因此,当LC_ALL强制locale信息以后,LANG的设置也就失效了。
三,python中的编码问题
在python中,需要分清楚三种编码:系统编码,python编码,文件编码。先面说一下这三种编码的作用。
系统编码,通常也是写源码的编辑器的编码方式。它代表源码文件内的所有内容都是根据词方式编码成二进制码流,存入到磁盘中的。
系统编码可以通过locale命令查看(LINUX)。
python编码,是指python内设置的解码方式。如果不设定的话,python默认是ascii解码。它的设置方式有一下三种:
第一种:在源码文件开头(一定要是第一行):#coding=UTF-8,源码文件的设置解码方式为UTF-8
第二种:在源码文件开头(一定是第一行):#-*-coding:UTF-8-*-,源码文件的设置解码方式是UTF-8
第三种:
import sys
reload(sys)
sys.setdefaultencoding('UTF-8')
个人推荐前两种。前两种的区别在于,第二种能够被其他语言识别,第一种只使用于python
下面举例说明系统编码和python编码的作用。
系统编码:locale:gbk
python源文件test.py
#coding='UTF-8'
s='哈'
print s
在test.py保存的时候,会按照系统编码方式GBK的方式,编码成gbk二进制码流,存储到磁盘上。当运行该程序时。gbk二进制码流调入内存,并按照python设置的解码方式解码,也就是按照UTF-8的方式解码。所以,源文件中的汉字“哈”显示按照gbk方式,编码成二进制码流,然后按照UTF-8的方式解码成unicode内码。可以想象,结果不是错误提示,就是显示出来的是乱码。
还有一种情况需要用到python的默认解码方式。例如:
系统编码:locale:gbk
test.py
#coding='gbk'
s='哈'
ss=s.encode('UTF-8')
字符串s表示的是汉字“哈”的gbk编码的二进制码流(python中,所有字符串都表示的是相应的二进制码流,所有的unicode都表示的是相应的内码)。ss=s.encode('UTF-8')的过程中,会先对s的二进制码流,按照python设定的默认解码方式解码成unicode内码,然后对内码按照encode指定的编码方式编码。
在字符串的处理过程中,记住一句话:对二进制码流,按照解码的编码处理。怎么理解这句话呢?
例如:
print s
字符串s表示的是二进制码流,print函数把它交给系统,系统按照系统的编码方式解码饼显示。当然,如果系统的解码方式和s的编码方式不兼容的话,可能会报错或者乱码。
再例如:
f.write("%s\r\n"%str)
字符串str表示的是二进制码流,f是打开的指定文件。str二进制码流按照f文件的编码方式进行解码和编码,结果保存在f文件中。
为了安全起见,文件在打开的时候,最后指定文件编码方式
字符串和unicode的区别
字符串表示的是编码后的二进制码流,unicode表示的是内码。所以,为了避免解码错误的出现,最好使用unicode表示
unicode的定义,使用
1.s=u'哈':定义unicode字符串s。s表示的是哈的unicode内码
2.ss=unicode(s,'gbk'):对字符串s按照gbk方式解码,ss表示解码后的内码
3.import codecs
f=codecs.open(filename,'r','gbk‘)
s=f.read()
按照gbk方式读取filename,读取后的内容转变成unicode内码存在变量s中。
好了,记住上面这些,python中碰到编码问题,再也不会害怕了
转载 http://blog.sina.com.cn/s/blog_67852f560101fjtc.html
系统编码 python编码的更多相关文章
- python编码总结
关于ASCII码和Unicode码的来源 计算机只能处理数字,如果要处理文本,需要先将文本转换成数字.早期计算机采用8bit作为一个字节(byte).所以一个字节最大为255(二进制11111111= ...
- 系统编码,文件编码,python编码
系统编码,可以通过locale命令查看(LINUX)https://wiki.archlinux.org/index.php/Locale_(简体中文), centos7 配置文件在/etc/prof ...
- (转载) 浅谈python编码处理
最近业务中需要用 Python 写一些脚本.尽管脚本的交互只是命令行 + 日志输出,但是为了让界面友好些,我还是决定用中文输出日志信息. 很快,我就遇到了异常: UnicodeEncodeError: ...
- Python之路3【知识点】白话Python编码和文件操作
Python文件头部模板 先说个小知识点:如何在创建文件的时候自动添加文件的头部信息! 通过:file--settings 每次都通过file--setings打开设置页面太麻烦了!可以通过:View ...
- python编码规范
python编码规范 文件及目录规范 文件保存为 utf-8 格式. 程序首行必须为编码声明:# -*- coding:utf-8 -*- 文件名全部小写. 代码风格 空格 设置用空格符替换TAB符. ...
- Python编码问题整理
认识常见编码 GB2312是中国规定的汉字编码,也可以说是简体中文的字符集编码 GBK 是 GB2312的扩展 ,除了兼容GB2312外,它还能显示繁体中文,还有日文的假名 cp936:中文本地系统是 ...
- Python编码与解码
# -*- coding: utf-8 -*- # 直接保存为Python脚本,对照执行结果会好看点. # 实验的内容都是在Python 2.7.x下进行的. # Python3默认采用unicode ...
- python编码问题的理解与解决
错误:'ascii' codec can't encode characters in position 0-1: ordinal not in range(128) 看到网上很多都不清楚,做了一天的 ...
- Python编码问题整理【转】
认识常见编码 GB2312是中国规定的汉字编码,也可以说是简体中文的字符集编码 GBK 是 GB2312的扩展 ,除了兼容GB2312外,它还能显示繁体中文,还有日文的假名 cp936:中文本地系统是 ...
随机推荐
- Action获取请求参数的3中方式
方式一:Action本身作为Model对象,通过属性注入(Setter)方法讲参数数据封装到Action中 具体为:在Action中,提供和参数名相同的几个属性,并为其提供set方法,那么,该参数会被 ...
- redis之使用场景
随着数据量的增长,MySQL 已经满足不了大型互联网类应用的需求.因此,Redis 基于内存存储数据,可以极大的提高查询性能,对产品在架构上很好的补充.在某些场景下,可以充分的利用 Redis 的特性 ...
- 2019-11-29-VisualStudio-2019-尝试使用-C#-8.0-新的方式
title author date CreateTime categories VisualStudio 2019 尝试使用 C# 8.0 新的方式 lindexi 2019-11-29 08:41: ...
- softmax+交叉熵
1 softmax函数 softmax函数的定义为 $$softmax(x)=\frac{e^{x_i}}{\sum_j e^{x_j}} \tag{1}$$ softmax函数的特点有 函数值在[0 ...
- Qt设置生成的exe文件图标
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明.本文链接:https://blog.csdn.net/qq_37354286/article/d ...
- (转) windows 下ORA-12514:TNS 监听问题
在使用Orcale数据库的时候不知道各位是否遇到过如图的监听问题(或者显示类似的问题),以下方法就是来解决这样的问题的. 首先右击计算机,选择管理.选择左侧栏的服务与应用程序,右侧栏选服务. ...
- mysql 的主从
MySQL的Replication(英文为复制)是一个多MySQL数据库做主从同步的方案,特点是异步复制,广泛用在各种对MySQL有更高性能.更高可靠性要求的场合.与之对应的是另一个同步技术是MySQ ...
- 一个web应用的诞生(7)
现在所有的Py代码均写在default.py文件中,很明显这种方法下,一旦程序变的负责,那么无论对于开发和维护来说,都会带来很多问题. Flask框架并不强制要求项目使用特定的组织结构,所以这里使用的 ...
- jmeter之csv文件参数化
1.准备好CSV文件,记下路径 2.点击测试计划或者线程组,添加配置元件 ——CSV Data Set Config 3.填写相关参数 4.使用参数
- 如何编写高质量的js代码--底层原理
转自: 如何编写高质量的 JS 函数(1) -- 敲山震虎篇 本文首发于 vivo互联网技术 微信公众号 链接:https://mp.weixin.qq.com/s/7lCK9cHmunvYlbm ...