Python3.X-文本编码问题

1.请说明python2与python3的默认编码是什么？

python的默认编码是ASCII码，python3的默认编码是utf-8

2.为什么会出现中文乱码？能列举出现乱码的情况有哪几种么？

编码的方式和解码的方式不一致，就会出现乱码现象。

比如：（1）文本内容是以gbk编码的，但是解码的方式却是utf-8,就会乱码

（2）文本内容是以ASCII进行编码的，那就不支持中文，如果往文本中添加中文，就会显示乱码.

解决方法：用chardet获取编码格式

import chardet

str = "xxxxx"

str_type = chardet.detect(str)

code = str_type['encoding']

code即为str的编码格式。但有些人反映该方法得到的编码格式不准确，速度也慢。本人亲测，速度确实一般，但是目前还没遇到不准确的情况。大家可以斟酌使用，我这里只是提供一个思路，如果谁那里有更好的方式，可以告知小弟，不吝赐教。

3.如何进行编码转换？

运用 encode（编码）和decode（解码）

decode是解码，从二进制编码格式到unicode编码格式，解码的格式需要以最开始编码的方式一致，否则出现乱码

encode是编码，从unicode格式到二级制编码格式（可以是gbk,utf-8等等）

 # -*- coding:utf-8 -*-  

 str = "你好" #py3默认编码是utf-8

 print('unicode:', type(str),str)

 str = bytes(str, encoding='utf-8')  # 先编码，转换成bytes二进制类型

 print(type(str), str)

 str = str.decode("utf-8")   #再解码，若这个地方写gbk,就会出现乱码错误

 print('用utf-8编码成bytes类型，再解码成unicode:',type(str), str)

 str=str.encode("gbk")

 str=str.decode('gbk')

 print('用gbk编码成unicode，再解码:', type(str), str)

4. # -*- coding:utf-8 -*- 这句话的作用是什么？

文本编码方式默认为utf-8

5.解释py2 bytes vs py3 bytes的区别

（1）Python 3 所有的 strings 均是 unicode 类型,如果要转换成bytes类型，则需要进行编码声明，比如：

str ⇒ bytes：bytes(s, encoding='utf8')

bytes ⇒ str：s.decode('utf-8')

在python2.x 中是不区分bytes和str类型的，str的所有操作bytes都支持。但是在python3中bytes和str中是区分开的。

python2 中

>>> s = "abcdefg"
>>> b = s.encode() #或者使用下面的方式

>>> b = b"abcdefg"
>>> type(b)
<type 'str'>

python3中 #str和bytes是严格区分的

>>> s = "abcdefg"
>>> type(s)
<class 'str'>
>>> b = b"abcdefg"
>>> type(b)
<class 'bytes'>

str是文本系列，bytes是字节系列

文本是有编码的（UTF-8，GBK，GB2312等）

字节没有编码

文本的编码指的是字符如何使用字节来表示组织方式，linux下默认都使用UTF-8

（2）bytes与str之间的转换-------编码

bytes由str通过encode方法转化得到的,str也可以通过bytes 通过decode方法转化得到

通过b前缀可以定义bytes

GBK 是双字节，UTF-8 灵活编码，1字节，2字节，3字节，4字节都有，最大支持6字节长度，中文大多数是3字节

>>> S = "我是中国人"
>>> S
'我是中国人'
>>> b = S.encode() #进行编码为bytes
>>> b
b'\xe6\x88\x91\xe6\x98\xaf\xe4\xb8\xad\xe5\x9b\xbd\xe4\xba\xba'
>>> b.decode() #进行解码为字符串
'我是中国人'
>>>

str被编码成什么格式的，就需要使用什么格式的编码进行解码

>>> S = "我是中国人"
>>> S
'我是中国人'
>>> b = S.encode('GBK')
>>> b
b'\xce\xd2\xca\xc7\xd6\xd0\xb9\xfa\xc8\xcb'
>>> b.decode('GBK')
'我是中国人'

（3）bytes的操作

bytes具有string类型的所有操作,bytes可以通过str encode转化，也可以通过前缀b定义

>>> b = b'abc'
>>> b
b'abc'
>>> b.decode()
'abc'

>>> len(('我是中国人').encode()) #求bytes的长度
15
>>> b
b'abc'
>>> b.hex() #转化为16进制
'616263'

>>> bin(616263) #转化为2进制
'0b10010110011101000111'

6.文件处理

（1）读取文件是，r和rb的区别是什么？

对于 Python 3 环境：

r：Python 将会按照编码格式进行解析，read() 操作返回的是str
rb：也即 binary mode，read()操作返回的是bytes

（2）解释一下open中三个参数的作用。
　　open(f_name,'r',encoding="utf-8")

第一个位置参数f_name指的是打开的文件的名字。

第二个位置参数‘r’指的是用读模式打开。

第三个位置参数encoding='utf-8'，指的是读取文件的编码格式为:utf-8

Python3.X-文本编码问题的更多相关文章

python3中的编码
python2字符串编码存在的问题: 使用 ASCII 码作为默认编码方式,对中文处理不友好把字符串分为 unicode 和 str 两种类型,将unicode作为唯一内码,误导开发者 python ...
转 python3中SQLLIT编码与解码之Unicode与bytes
#########sample########## sqlite3.OperationalError: Could not decode to UTF-8 column 'logtype' with ...
python3 之字符串编码小结（Unicode、utf-8、gbk、gb2312等）
python3 解释器默认编码为Unicode,由str类型进行表示.二进制数据使用byte类型表示. 字符串通过编码转换成字节串,字节码通过解码成为字符串. encode:str-->byte ...
[2015.02.02]文本编码转换专家 v2.6
软件名称:文本编码转换专家最新版本:v2.6操作系统:XP/2003/Win7/Win2008软件介绍:文本编码转换专家,界面简洁易用,功能强大实用.自动识别文件编码,有效转换成目标编码.真正的多线程 ...
node.js整理 03文件操作-遍历目录和文本编码
遍历目录递归算法遍历目录时一般使用递归算法,否则就难以编写出简洁的代码. 递归算法与数学归纳法类似,通过不断缩小问题的规模来解决问题 function factorial(n) { if (n = ...
mac 文本编辑器文本编码Unicode utf-8 不适用的问题
在mac上使用默认的文本编辑器打开下载的xx.txt文件,如果文本是gbk的编码可能会出现文本编码Unicode utf-8 不适用的打开错误,如下图解决方式: 文本编辑---偏好设置-----打 ...
Mac下用命令行直接批量转换文本编码到UTF8
由于近期在Mac下写Android程序,下载的一些Demo由于编码问题源码里的汉字出现乱码,文件比较多,所以想批量解决下文件的编码问题. Mac下有以下两种方式可以解决: A. 文件名的编码:Mac的 ...
python3中的编码与解码（超好理解）
编码和解码是针对数据而言的,数据能干什么呢?无非就是用来显示,储存和传输的: 储存和传输数据当然是希望数据越小越好,所以发明了utf-8这种数据编码显示:它智能将英文用一个字节表示,欧洲的字符用两个字 ...
011_如何decode url及图片转为base64文本编码总结
一.咱们经常会遇到浏览器给encode后的url,如何转换成咱们都能识别的url呢?很简单,talk is easy,Please show me your code,如下所示: (1)英文decod ...

随机推荐

matlab练习程序（随机粒子切换特效）
视频制作软件中一般都会有相邻帧切换的特效,我过去用过vagas好像就有很多切换特效. 我想这个也算是其中一种吧,虽然我不确定实际中到底有没有这种切换. 实际上我只是下班后太无聊了,写着玩的,没什么高深 ...
Selenium 2.0 以后不在必须Selenium server了
does not require the Selenium Server to automate the browser.这个句话,解决了我很的疑惑,新版Selenium 可以直接操作浏览器了,还可以 ...
haproxy学习——安装（一）
安装包:haproxy-1.5.4.tar.gz (挺小的,大约1.3M) ①.首先要sz到本地虚拟机上(centos-6.5),tar zxvf haproxy-1.5.4.tar.gz,完成解压. ...
input type=number去掉上下箭头
<input type="number" ...> <style> input::-webkit-outer-spin-button, input::-we ...
通过vue-cli3构建一个SSR应用程序
1.前沿 1.1.什么是SSR SSR(服务端渲染)顾名思义就是将页面在服务端渲染完成后在客户端直接展示. 1.2.客户端渲染与服务端渲染的区别传统的SPA模式即客户端渲染的模式 Vue.js构建 ...
Jquery的部分插件
jQuery Easing:jQuery 动画效果扩展 jQuery Migrate:jQuery 应用迁移辅助插件Modernizr:专为HTML5和CSS3开发的功能检测类库jQuery Flex ...
二、Python安装扩展库
第一步:推荐easy_install工具下载地址:https://pypi.python.org/pypi/setuptools 下载"ez_setup.py"文件; 通过运行c ...
Git 版本管理器学习笔记
难点:使用 git revert <commit_id> 操作实现以退为进, git revert 不同于 git reset 它不会擦除"回退"之后的 commit_ ...
使用 Android 客户端向 Ruby on rails 构建的 Web Application 提交 HTTP GET 和 HTTP POST 请求
最近想弄个能访问 Internet 的 Android 应用,因为求快所以用了 Ruby on Rails 来提供 HTTP 资源.这方面的资料还是比较少的,所以把尝试的过程记录下来. 1 使用 Ru ...
一、OSI模型
OSI/RM协议是由ISO(国际标准化组织)制定的,它有三个基本的功能:提供给开发者一个必须的.通用的概念以便开发完善.可以用来解释连接不同系统的框架.OSI将计算机网络体系结构(architectu ...

Python3.X-文本编码问题

Python3.X-文本编码问题的更多相关文章

随机推荐

热门专题