字符编码之间的转换 utf-8 , gbk等,(解决中文字符串乱码)
目录
1.背景.
2.编码的理解
3.编码之间的相互转化
4. str类型说明
5. 可以使用的编码类型
6.参考文章
1.背景
Python中与其他程序进行交互时,如果存在字符串交互,特别是字符串中含有中文时,需要注意字符的格式,需要保持两边一致。
笔者在开发中遇到一个python 调用Labview编译的dll函数,需要输入一个字符串路径。当路径中含有中文时,由于两边编码不一致,会导致报错。
2.编码的理解
1. python 中写代码时,一般通过在一开始使用 # -*- coding: utf-8 -*- 或者其他告诉编译器当前代码默认的编码是什么,这里就是utf-8格式,现在比较通用。
当string_a = ‘Bing,你好’
Type(string_a) = str
可见当赋值一个字符串时,python 默认是str类型。
通过encode(‘utf-8’),decode(‘utf-8’)可以进行格式的编码或者解码。编码后的变量类型是bytes类型,完整的说应该是 按照utf-8格式编码的bytes类型。
我的中文环境的Labview中默认编码格式是gbk格式,所以我用python将字符串送入labview编译的dll中时,需要 先将 字符串编码成gbk格式,比如 string_a.encode(‘gbk’),当收到labview编译的dll函数中传出来的字符串时,需要先将收到的 string_b_out.decode(‘gbk’) 这样就能显示中文,而不是乱码了。
在python(笔者当前为3.7版本)中,为编码的字符串类型为str,无论编码成 ‘utf-8’还是‘gbk’,类型都会从str类型变为bytes类型。
下面我们结合代码理解:
s='Bing-中国-!'
print('type(s)',type(s))
打印如下内容----------------
type(s) <class 'str'>
打印内容结束----------------
a=s.encode('utf-8')
b=s.encode('gb2312')
c=s.encode('gb18030')
d=s.encode('gbk') print("a=s.encode('utf-8'), a=",a)
print("b=s.encode('gb2312'),b=",b)
print("c=s.encode('gb18030'),c=",c)
print("d=s.encode('gbk'),d=",d)
打印如下内容----------------
a=s.encode('utf-8'), a= b'Bing-\xe4\xb8\xad\xe5\x9b\xbd-\xef\xbc\x81'
b=s.encode('gb2312'),b= b'Bing-\xd6\xd0\xb9\xfa-\xa3\xa1'
c=s.encode('gb18030'),c= b'Bing-\xd6\xd0\xb9\xfa-\xa3\xa1'
d=s.encode('gbk'),d= b'Bing-\xd6\xd0\xb9\xfa-\xa3\xa1'
打印内容结束----------------
print('type(a)',type(a))
print('type(b)',type(b))
print('type(c)',type(c))
print('type(d)',type(d))
打印如下内容----------------
type(a) <class 'bytes'>
type(b) <class 'bytes'>
type(c) <class 'bytes'>
type(d) <class 'bytes'>
打印内容结束----------------
a=a.decode('utf-8')
b=b.decode('gb2312')
c=c.decode('gb18030')
d=d.decode('gbk') print("a=a.decode('utf-8'), a=",a)
print("b=b.decode('gb2312'),b=",b)
print("c=c.decode('gb18030'),c=",c)
print("d=d.decode('gbk'),d=",d)
打印如下内容----------------
a=a.decode('utf-8'), a= Bing-中国-!
b=b.decode('gb2312'),b= Bing-中国-!
c=c.decode('gb18030'),c= Bing-中国-!
d=d.decode('gbk'),d= Bing-中国-!
打印内容结束----------------
可见原来的内容又回来了,此时a,b,c,d的类型为str。
3.编码之间的相互转化
另一种情况,当我编码了utf-8后,是否可以从utf-8直接编码或者解码成 gbk格式
答案是不可以,必须先解码成 str类型,再重新编码为gbk编码的bytes类型。
所以其实编码解码之间还是有方向性的。
当变量类型为 str类型时,智能编码,使用encode(‘编码格式’)方法;当bytes类型时,按道理只用解码decode(‘编码格式’) 才不会出错。
上图:
GBK需要转化为utf-8的流程为:
1. 首先通过decode(‘gbk’)转化为 str 类型
2. 再通过encode(‘utf-8’)转化为编码为utf-8的bytes类型。
#%% 当编码了utf-8后需要转化为gbk,应该先解码,再重新编码成gbk,即不同编码格式之间不能直接转化。
s='Bing-中国-!'
print('type(s)',type(s)) a=s.encode('utf-8')
print('type(a)',type(a)) #--------------------------------------
b=a.encode('gb2312') # 会报错如下内容
# 会报错如下内容
# type(s) <class 'str'>
# type(a) <class 'bytes'>
# Traceback (most recent call last):
# File "D:\Python\decodeandencode.py", line 60, in <module>
# b=a.encode('gb2312')
# AttributeError: 'bytes' object has no attribute 'encode' #-----------------------------------
b=a.decode('gb2312') # 也会报错,当编码无法使用正确识别时。
# 会报错如下内容
# type(s) <class 'str'>
# type(a) <class 'bytes'>
# Traceback (most recent call last):
# File "D:\Python\decodeandencode.py", line 71, in <module>
# b=a.decode('gb2312')
# UnicodeDecodeError: 'gb2312' codec can't decode byte 0xad in position 7: illegal multibyte sequence
4. str类型说明
在网上看到有人说str类型在python中其实是按照unicode来保存的。但是会显性成str我们看到的字符。
5. 可以使用的编码类型
除了utf-8和gbk以外,还可以编码成很多类型。在python的帮助文档中摘取一小部分:
Codec |
Aliases |
Languages |
euc_kr |
euckr, korean, ksc5601, ks_c- |
Korean |
gb2312 |
chinese, csiso58gb231280, euc |
Simplified Chinese |
gbk |
936, cp936, ms936 |
Unified Chinese |
gb18030 |
gb18030-2000 |
Unified Chinese |
hz |
hzgb, hz-gb, hz-gb-2312 |
Simplified Chinese |
iso2022_jp |
csiso2022jp, iso2022jp, iso-2022- |
Japanese |
iso2022_jp_1 |
iso2022jp-1, iso-2022-jp-1 |
Japanese |
iso2022_jp_2 |
iso2022jp-2, iso-2022-jp-2 |
Japanese, Korean, Simplified Chi |
6.参考文章
https://www.jb51.net/article/179894.htm
字符编码之间的转换 utf-8 , gbk等,(解决中文字符串乱码)的更多相关文章
- 字符编码之间的相互转换 UTF8与GBK(转载)
转载自http://www.cnblogs.com/azraelly/archive/2012/06/21/2558360.html UTF8与GBK字符编码之间的相互转换 C++ UTF8编码转换 ...
- 【miscellaneous】【C/C++语言】UTF8与GBK字符编码之间的相互转换
UTF8与GBK字符编码之间的相互转换 C++ UTF8编码转换 CChineseCode 一 预备知识 1,字符:字符是抽象的最小文本单位.它没有固定的形状(可能是一个字形),而且没有值." ...
- (2)字符编码关系和转换(bytes类型)
ASCII 占一个字节,只支持英文 GB2312 占2个字节,只支持6700+汉字 GBK 是GB2312的升级版,支持21000+汉字 Shift-JIS 日本字符编码 ks_c-5601-1987 ...
- 【JAVA编码】 JAVA字符编码系列二:Unicode,ISO-8859,GBK,UTF-8编码及相互转换
http://blog.csdn.net/qinysong/article/details/1179489 这两天抽时间又总结/整理了一下各种编码的实际编码方式,和在Java应用中的使用情况,在这里记 ...
- Python常见字符编码间的转换
主要内容: 1.Unicode 和 UTF-8的爱恨纠葛 2.字符在硬盘上的存储 3.编码的转换 4.验证编码是否转换正确 5.Python bytes类型 前 ...
- 《Python CookBook2》 第一章 文本 - 每次处理一个字符 && 字符和字符值之间的转换
文本 - 总结: 什么是文本Python 中的string 类型是不可变类型.文本,一个字符的矩阵,每一个单独的文本快可以被缩进和组织起来. 基本的文本操作①解析数据并将数据放入程序内部的结构中:②将 ...
- Python - 字符和字符值之间的转换
字符和字符值之间的转换 Python中, 字符和字符值, 直接的转换, 包含ASCII码和字母之间的转换,Unicode码和数字之间的转换; 也可以使用map, 进行批量转换, 输出为集合, 使用jo ...
- Delphi字符串、PChar与字符数组之间的转换
来自:http://my.oschina.net/kavensu/blog/193719 ------------------------------------------------------- ...
- Linux 字符编码 查看与转换
Linux 查看文件编码格式 Vim 查看文件编码 set fileencoding // 即可显示文件编码格式 若想解决Vim查看文件乱码问题, 可以在 .vimrc 文件添加 set encodi ...
随机推荐
- adobe media encoder cc 2018无法打开,报错0xc0000005
在我这里是因为显卡的原因 下载NVIDIA然后打开NVIDIA控制面板,在里面选择软件的显卡,挨个试就行, 还不行就在设备管理器中将多余的先禁用,试一试
- hibernate 初学
1. hibernate的基本操作 执行流程: 执行流程细节:基本的配置文件 可以与mybatis进行对比着记 hibernate 的主键生成策略 ...
- css 圆形脉冲动画
需求: 项目需要在3D场景增加动画按钮,直接添加到场景时 当场景过大的时候 .加载比较麻烦 因在找资料时发现这玩意居然要付费.故做此记录, 效果: 参考: 1.https://www.jiangwei ...
- IdentityServer4[1]:开篇
1.开篇 首先明确一点,文章只是学习过程的笔记,参考目前网络上的博客,主要便于自己加深理解,同时也督促自己持续学习,没有其他目的.感谢网上资源的提供者. IdentityServer是为ASP.NET ...
- bootstrap inputfile 使用-上传,回显
近期用bootstrap 做前端的上传,功能涉及到上传时就是召网上的教程随便弄一搜一大把,但是做到修改页面时候不知道页面该如何回显,折腾了一阵子才完成遂记录下来希望能给看到的小伙伴有点启发吧. 首先是 ...
- Kronecker product
Kronecker product 的基本运算 结合律 \begin{equation} \mathrm{A} \otimes (\mathrm{B + C}) = \mathrm{A} \otime ...
- Java MD5和SHA256等常用加密算法
前言 我们在做java项目开发的时候,在前后端接口分离模式下,接口信息需要加密处理,做签名认证,还有在用户登录信息密码等也都需要数据加密.信息加密是现在几乎所有项目都需要用到的技术,身份认证.单点登陆 ...
- 腾讯首个CNCF沙箱开源项目
作者 SuperEdge开发者.腾讯云容器产品中心边缘计算团队.腾讯开源生态管理协会 SuperEdge 进入 CNCF 沙箱 2021 年 9 月 14 日,云原生分布式边缘容器系统 SuperEd ...
- Redis分布式锁,看完不懂你打我
简易的redis分布式锁 加锁: set key my_random_value NX PX 30000 这个命令比setnx好,因为可以同时设置过期时间.不设置过期时间,应用挂了,解不了锁,就一直锁 ...
- Chrome安装Postman以及启动的方式
Postman一个web开发人员必不可少的接口调试神器 Chrome安装Postman的方法网上很多,就不一一列举了我个人使用的方式目前常用的两种方式 方式一:下载插件安装包使用开发者模式安装 推荐一 ...