距离上一篇的python --- 字符编码学习小结(一)已经过去2年了,2年的时间里,确实也遇到了各种各样的字符编码问题,也能解决,但是每次都是把所有的方法都试一遍,然后终于正常。这种方法显然是不科学的,本质上不理解问题产生的原因,所以遇到问题,只能先用万能钥匙,不行的话再逐个换。2年的时间积累和学习目前对此的了解又深刻了一点。

一、常见的编解码问题:

先来说几个常见的问题吧。

这2个问题,都是最最常见,又最基本典型的问题,又最基本的2个问题,从这2个问题出发,弄清楚问题产生的原因,后面很多问题基本都是组合场景,能比较轻松解决。

二:问题产生原因分析

1、根本原因:

2、分析问题1产生原因和解决方法:

第一步: ***格式的txt文件被读取到内存中
第二步:显示器按&&&方式来读取? 当&&& 与 ***不一致就会乱码,分析如下: A: 正常默认情况下,python解析器尝试使用 &&& = GBK格式(windows默认格式:CP396->GBK)来解析这块内存数据来显示:
a : 如果读取的文件是*** = GBK格式,ok,不乱码
b : 如果读取的文件是*** = UTF-8格式就会产生乱码。因为以UTF-8形式表示的编码在GBK编码中被解释成其他字符串导致产生乱码 B: 而如果此时在在pycharm里可以通过设置settings的encoding格式=UTF-8来解析这块内存数据:
a: 如果读取的文件是GBK格式会产生乱码。因为以GBK形式表示的编码在utf-8编码中被解释成其他字符串导致产生乱码
b : 如果读取的文件是UTF-8格式就不会乱码。 A.b 解决办法:.decode('utf-8').encode('gbk')或者decode('utf-8')
B.a 解决办法:decode('gbk').encode('utf-8')或者decode('gbk') 其中,windows默认的解析格式是GBK,在pycharm里可以通过设置settings的encoding格式来设置;而文件保存格式,在notepad++可以选择 读取文件推荐使用方法:
推荐使用codecs模块,使用codecs/io.open()显示指定文件编码格式。python 2 open(filename,mode),不支持encoding参数,但python 3支持

3、分析问题2产生原因和解决方法:

第一步: 以***编码格式保存py文件。
第二步:显示器按&&&方式来读取? 在解析过程中,当字符在***无法找到时程序会抛异常,分析如下: A: 正常默认情况下,python的默认编码是 *** = ASCII编码:
a : 默认情况下,python解析器尝试使用 &&& = GBK 来解析数据,但是中文并不是ASCII字符,导致解释器不知如何处理,抛异常.
b : 设置pycharm的settings的encoding格式 = UTF-, 来解析数据,但是中文并不是ASCII字符,导致解释器不知如何处理,抛异常. 解决方法:声明源文件的编码方式。
推荐方法:#coding=utf-

三、其他常见不同类型问题

1、不可见字符BOM导致解析异常

2、chardet检测字节流编码格式,是基于概率,存在不准确的问题。字节编码无法准确猜对,必须明确告知

3、os.walk() 遍历含中文的路径时中文乱码报错

现在需要遍历E:/ 下的路径,部分如下所示,存在中文文件名

A:  报错代码段如下:读取的

#!/usr/bin/python
# -*- coding: UTF-8 -*- import os
for root, dirs, files in os.walk("E:/", topdown=False):
for name in files:
print(os.path.join(root, name))

读取结果如下:

B: 导致取读错误的原因如下:

os.walk(folder_name) 返回的文件路径编码和入参folder_name编码有关:

• 当folder_name是unicode时,os.walk返回的root,directories, filenames也是unicode

否则按照sys.getfilesystemencoding()编码返回str.中文windows 系统sys.getfilesystemencoding()返回“mbcs”(即:“gbk”)英文ubuntu系统sys.getfilesystemencoding()返回“utf-8”

如果根路径中有中文,路径需要使用unicode编码作为os.walk的入参

C : 修改代码如下,能正常读取中文路径

for root, dirs, files in os.walk(u"E:/", topdown=False):
或者
for root, dirs, files in os.walk("E:/".decode('utf-8'), topdown=False):

python --- 字符编码学习小结(二)的更多相关文章

  1. python --- 字符编码学习小结

    上半年的KPI,是用python做一个测试桩系统,现在系统框架基本也差不多定下来了.里面有用到新学的工厂设计模式以及以及常用的大牛写框架的业务逻辑和python小技巧.发现之前自己写的代码还是面向过程 ...

  2. 【Todo】Python字符编码学习

    Python中经常出现字符编码问题,在这里统一整理吧. 参考这篇文章:http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html 另外这个人 ...

  3. python 字符编码练习

    通过下面的练习,加深对python字符编码的认识 # \x00 - \xff 256个字符 >>> a = range(256)>>> b = bytes(a) # ...

  4. Python字符编码补充

    字符编码: Python字符编码贯穿Python学习的始终,现在应用的是Python2中字符编码的问题是很多的. 这次是要彻底解决Python字符编码的问题!!! 1 字符编码的发展过程: 1 .AS ...

  5. 转1:Python字符编码详解

    Python27字符编码详解 声明 一 字符编码基础 1 抽象字符清单ACR 2 已编码字符集CCS 3 字符编码格式CEF 31 ASCII初创 311 ASCII 312 EASCII 32 MB ...

  6. Python字符编码讲解

    声明:本文参考 Python字符编码详解 在计算机中我们不管用什么语言和程序,最终数据在计算机中的都是字节码(也就是01形式)的形式存在的,如果 计算机直接把字节码显示在屏幕上,很明显一般人看不懂字节 ...

  7. 深入理解Python字符编码--转

    http://blog.51cto.com/9478652/2057896 不论你是有着多年经验的 Python 老司机还是刚入门 Python 不久,你一定遇到过UnicodeEncodeError ...

  8. 深入理解Python字符编码

    不论你是有着多年经验的 Python 老司机还是刚入门 Python 不久,你一定遇到过UnicodeEncodeError.UnicodeDecodeError 错误,每当遇到错误我们就拿着 enc ...

  9. Python字符编码详解,str,bytes

    什么是明文 “明文”是可以是文本,音乐,可以编码成mp3文件.明文可以是图像的,可以编码为gif.png或jpg文件.明文是电影的,可以编码成wmv文件.不一而足. 什么是编码?把明文变成计算机语言 ...

随机推荐

  1. 在GitHub上使用Hexo 搭建自己的博客

    1.下载Node.js安装文件(现在电脑基本都是64位的,我就放64位的下载地址):https://nodejs.org/dist/v8.9.4/node-v8.9.4-x64.msi 或者自行到官网 ...

  2. Win10远程连接自己的电脑提示“登陆没有成功”的解决方案

    问题:提示登录没有成功 猜想: 1)要么是账号密码输入错误,必须是系统的用户名.密码 2)要么是配置问题,配置解决如下: 1.开启允许访问远程 找到此电脑-右键属性-高级系统设置-远程-勾选允许远程连 ...

  3. 微信小程序 按钮固定在页面底部遮住页面显示内容问题

    我们分为以下部分来解决这个问题: 第一部分:问题的表现是怎么样的? 第二部分:问题的是如何实现的? 第三部分:如何解决问题? 第一部分:问题的表现是怎么样的? 我设置了页面有0-99共100个数,但是 ...

  4. Linux命令及作用

    uname -r :查看当前使用的Linux内核版本信息 cat /proc/cpuinfo:查看当前主机CPU型号,规格等信息 cat /proc/meminfo :查看当前主机内存信息 hostn ...

  5. hdu4841 圆桌问题[STL vector]

    目录 题目地址 题干 代码和解释 参考 题目地址 hdu4841 题干 代码和解释 解本题时使用了刚学的STL vector,注意hdu不支持万能头文件#include<bits/stdc++. ...

  6. 基于Hadoop爬虫网易云歌曲评论

    作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 本次选取的是爬取歌曲<大碗宽面>的歌评数据 1.将 ...

  7. Excel如何输入负数

    一般红字发票很少开,以前都是单独把红字发票摘出来放到一行里,然后加减一下,前段时间有个客户因为普票无法报销,改要了专票,因为是电子发票,无法作废,开了张红字.虽然红字很少开,但是想着百度一下如何在ex ...

  8. [LeetCode] 685. Redundant Connection II 冗余的连接之 II

    In this problem, a rooted tree is a directed graph such that, there is exactly one node (the root) f ...

  9. burpsuite证书生成和导入

    官网下载个社区版,基本还是够用的 配置代理的ip和port,选择根证书生成方式 访问配置的ip:port,下载证书 双击下载的证书,导入keychain 打开keychain,信任根证书 再次使用bu ...

  10. jinja 模板渲染路径坑

    路径中不能用上一级目录../