系统编码 python编码

编码一直都是一个很让人头疼的问题，尤其是在python里面。花了几天时间，终于把这个问题给弄明白了。

一，什么是编码，编码过程是怎样的？常见的编码方式有哪些？

编码是从一个字符，比如‘哈’，到一段二进制码流的过程。解码是从一段二进制码流到一个字符的过程。

在编码的过程中，会涉及到三个名词：字符，内码，字符集。字符就是终端上显示的各个文字字母等。内码和字符是一一对应的关系。每一个字符都对应一个唯一的内码。内码在内存中的具体实现称为字符集。

注意：严格来说，编码指内码编码成字符集；解码指字符集解码为内码。

ascii不仅仅指英文对应的内码，还包括它的具体实现，也就是它的字符集。它是用一个字节存储每个内码的。

unicode是所有文字(包括英文，中文，日文等)所对应的内码的集合。

unicode的实现方式比较多样，常用的有UTF-8，GBK，GB18030。

其中，UTF-8是一种不定长的内码实现方式。

GB18030兼容GBK，GBK兼容GB2312。

二，系统编码方式查询更改命令有哪些？（linux）

locale是最核心的一个变量。它包括12个基本属性。这12个基本属性构成某个地区的语言习惯，日期，货币，单位等文化因素。LC_ALL是强制修改locale信息的命令。LANG是locale的默认设置命令。因此，当LC_ALL强制locale信息以后，LANG的设置也就失效了。

三，python中的编码问题

在python中，需要分清楚三种编码：系统编码，python编码，文件编码。先面说一下这三种编码的作用。

系统编码，通常也是写源码的编辑器的编码方式。它代表源码文件内的所有内容都是根据词方式编码成二进制码流，存入到磁盘中的。

系统编码可以通过locale命令查看（LINUX）。

python编码，是指python内设置的解码方式。如果不设定的话，python默认是ascii解码。它的设置方式有一下三种：

第一种：在源码文件开头（一定要是第一行）：#coding=UTF-8，源码文件的设置解码方式为UTF-8

第二种：在源码文件开头（一定是第一行）：#-*-coding:UTF-8-*-，源码文件的设置解码方式是UTF-8

第三种：

import sys

reload(sys)

sys.setdefaultencoding('UTF-8')

个人推荐前两种。前两种的区别在于，第二种能够被其他语言识别，第一种只使用于python

下面举例说明系统编码和python编码的作用。

系统编码：locale：gbk

python源文件test.py

#coding='UTF-8'

s='哈'

print s

在test.py保存的时候，会按照系统编码方式GBK的方式，编码成gbk二进制码流，存储到磁盘上。当运行该程序时。gbk二进制码流调入内存，并按照python设置的解码方式解码，也就是按照UTF-8的方式解码。所以，源文件中的汉字“哈”显示按照gbk方式，编码成二进制码流，然后按照UTF-8的方式解码成unicode内码。可以想象，结果不是错误提示，就是显示出来的是乱码。

还有一种情况需要用到python的默认解码方式。例如：

系统编码：locale：gbk

test.py

#coding='gbk'

s='哈'

ss=s.encode('UTF-8')

字符串s表示的是汉字“哈”的gbk编码的二进制码流（python中，所有字符串都表示的是相应的二进制码流，所有的unicode都表示的是相应的内码）。ss=s.encode('UTF-8')的过程中，会先对s的二进制码流，按照python设定的默认解码方式解码成unicode内码，然后对内码按照encode指定的编码方式编码。

在字符串的处理过程中，记住一句话：对二进制码流，按照解码的编码处理。怎么理解这句话呢？

例如：

print s

字符串s表示的是二进制码流，print函数把它交给系统，系统按照系统的编码方式解码饼显示。当然，如果系统的解码方式和s的编码方式不兼容的话，可能会报错或者乱码。

再例如：

f.write("%s\r\n"%str)

字符串str表示的是二进制码流，f是打开的指定文件。str二进制码流按照f文件的编码方式进行解码和编码，结果保存在f文件中。

为了安全起见，文件在打开的时候，最后指定文件编码方式

字符串和unicode的区别

字符串表示的是编码后的二进制码流，unicode表示的是内码。所以，为了避免解码错误的出现，最好使用unicode表示

unicode的定义，使用

1.s=u'哈'：定义unicode字符串s。s表示的是哈的unicode内码

2.ss=unicode(s,'gbk'):对字符串s按照gbk方式解码，ss表示解码后的内码

3.import codecs

f=codecs.open(filename,'r','gbk‘）

s=f.read()

按照gbk方式读取filename，读取后的内容转变成unicode内码存在变量s中。

好了，记住上面这些，python中碰到编码问题，再也不会害怕了

转载 http://blog.sina.com.cn/s/blog_67852f560101fjtc.html

系统编码 python编码的更多相关文章

python编码总结
关于ASCII码和Unicode码的来源计算机只能处理数字,如果要处理文本,需要先将文本转换成数字.早期计算机采用8bit作为一个字节(byte).所以一个字节最大为255(二进制11111111= ...
系统编码，文件编码，python编码
系统编码,可以通过locale命令查看(LINUX)https://wiki.archlinux.org/index.php/Locale_(简体中文), centos7 配置文件在/etc/prof ...
(转载) 浅谈python编码处理
最近业务中需要用 Python 写一些脚本.尽管脚本的交互只是命令行 + 日志输出,但是为了让界面友好些,我还是决定用中文输出日志信息. 很快,我就遇到了异常: UnicodeEncodeError: ...
Python之路3【知识点】白话Python编码和文件操作
Python文件头部模板先说个小知识点:如何在创建文件的时候自动添加文件的头部信息! 通过:file--settings 每次都通过file--setings打开设置页面太麻烦了!可以通过:View ...
python编码规范
python编码规范文件及目录规范文件保存为 utf-8 格式. 程序首行必须为编码声明:# -*- coding:utf-8 -*- 文件名全部小写. 代码风格空格设置用空格符替换TAB符. ...
Python编码问题整理
认识常见编码 GB2312是中国规定的汉字编码,也可以说是简体中文的字符集编码 GBK 是 GB2312的扩展 ,除了兼容GB2312外,它还能显示繁体中文,还有日文的假名 cp936:中文本地系统是 ...
Python编码与解码
# -*- coding: utf-8 -*- # 直接保存为Python脚本,对照执行结果会好看点. # 实验的内容都是在Python 2.7.x下进行的. # Python3默认采用unicode ...
python编码问题的理解与解决
错误:'ascii' codec can't encode characters in position 0-1: ordinal not in range(128) 看到网上很多都不清楚,做了一天的 ...
Python编码问题整理【转】
认识常见编码 GB2312是中国规定的汉字编码,也可以说是简体中文的字符集编码 GBK 是 GB2312的扩展 ,除了兼容GB2312外,它还能显示繁体中文,还有日文的假名 cp936:中文本地系统是 ...

随机推荐

Mysql数据库中的输入命令各类知识总结
1.链接数据库的命令---mysql-u root-p 回车,输入密码//在cmd上输入自己的账号密码 2.查看:show databases: 3.创建数据库:create +database+数据 ...
linux下mysql的常用命令
更改mysql数据库root的密码首次进入数据库是不用密码的: [root@localhost ~]# /usr/local/mysql/bin/mysql -uroot Welcome to th ...
转载：一种云环境下SaaS软件部署方法及装置与流程
转载:http://www.xjishu.com/zhuanli/55/201710103925.html 本发明涉及云计算技术领域,特别是涉及一种云环境下SaaS软件部署方法及装置. 背景技术: 随 ...
centos7部署nagios（二）
一.Nagios简介分类: 监控 undefined Nagios是一款开源的电脑系统和网络监视工具,能有效监控Windows.Linux和Unix的主机状态,交换机路由器等网络设置,打印机等.在系 ...
mysql5.7二进制包进行多实例安装
一.需求在一台服务器上安装mysql5.7,并且部署两个实例:3306用于本机主库,3307用于其他MYSQL服务器的从库二.下载mysql二进制包 [root@push-- src]# -lin ...
Wasserstein Generative Adversarial Nets (WGAN ) and CGAN
GAN目前是机器学习中非常受欢迎的研究方向.主要包括有两种类型的研究,一种是将GAN用于有趣的问题,另一种是试图增加GAN的模型稳定性. 事实上,稳定性在GAN训练中是非常重要的.起初的GAN模型在训 ...
Windows如何下载nginx软件包到linux系统虚拟机上
1.打开浏览器,输入“nginx下载官网” 2.点击nginx:download 3.找到你想下载的nginx软件包 4.点击你所需要的版本之后(我点击的是nginx-1.12.2版本,根据自己的需要 ...
关于3.1 jmu-Java-03面向对象基础-01-构造函数与toString (3 分)
PTA显示Compiler did not create the expected binary 不知所措 package nn; import java.util.Scanner; ...
git 合并某个分支指定的文件
$ git checkout <another-branch> <path-to-file> [<one-more-file> ...] $ git status ...
用jquery控制表单提交
可以监听表单submit提交事件给form一个id 吧button的type为submit $(form的id).submit(function(){ if(window.confirm('你确定要取 ...

系统编码 python编码

系统编码 python编码的更多相关文章

随机推荐

热门专题