利用Python从文件中读取字符串（解决乱码问题）

　　首先声明这篇学习记录是基于python3的。
　　python3中，py文件中默认的文件编码就是unicode，不用像python2中那样加u，比如u'中文'。
　　不过在涉及路径时，比如C:\Users\Administrator\Desktop\StudyNote\Python，还是要加r。
　　eg:r'C:\Users\Administrator\Desktop\StudyNote\Python'。
　　因为\是转义符，想输出'\'得写成'\\'才可以。加了r就可以让python自动处理字符串,不让'\'进行转义，因此最终的字符串就是C:\Users\Administrator\Desktop\StudyNote\Python的意思。

　　OK，继续讲。
　　首先要明确一点，你的py文件用什么文件编码不重要，都可以顺利执行。不过要保证一点，保存py文件时的编码必须与编码声明的一样。假设你的py文件开头有以下编码声明:
　　eg: # -*- coding: utf-8 -*-
　　那么保存py文件时的编码也要为utf-8。
　　另外再普及一下保存文件编码时的知识，用notepad++在选择编码模式的时候，有utf-8和utf-8 without BOM，这个BOM实际上是在文件开头加注了三个字符，用以表明本文件的编码方式为utf-8，但这个是不需要的，往往会导致读取文件的时候出错（因为多了三个字符嘛，如果要去掉的话还得[3:]一下，挺麻烦的）。所以我们一般用utf-8 without BOM.

　　再言归正传。我们在处理文本文件的时候，如果该文件是unicode编码，则不需要做任何的处理操作，直接用'r'参数读取直接可用：
　　eg:

　　f=open('文件路径','r')

　　f_read=f.read()

　　print(f_read)

　　这样就能完整的输出文件里的字符串。
　　如果不是unicode编码，就不能直接用了,直接读会出现乱码。只能先以'rb'参数读取二进制文件的方式读取进来，read之后再解码。
　　eg:

f=open('文件路径','rb')

f_read=f.read()

f_read_decode=f_read.decode('该文件的编码方式')

print(f_read_decode)

　　这样才能完整显示，不然会有乱码出现。

　　问题又来了，往往我们并不知道该文件的编码方式，这该怎么办？
　　幸好python有个强大的工具chardet
　　eg:

import chardet

f=open('文件路径','rb')

f_read=f.read()

f_charInfo=chardet.detect(f_read)

f_charInfo的输出是这样的的一个字典{'confidence': 0.99, 'encoding': 'utf-8'}

　　前面‘confidence’是置信概率，后面是推断出的编码方式。以上的结果，意思为推断这段字符串的编码方式为'utf-8'的概率为99%.
　　经过我的测试，如果文件里的字符串比较少的话，chardet模块是比较难判断出正确的编码模式的，体现在置信概率比较小，字符串多的话，概率会大。我觉得至少大于90%才可信。
　　得到编码方式后，就可以用来解码了。
　　f_read_decode=f_read.decode(f_charInfo['encoding'])
　　print(f_read_decode)

　　最后补充一下chardet的安装方法：
　　pip install chardet
　　pip的安装方法请自行百度。

利用Python从文件中读取字符串（解决乱码问题）的更多相关文章

Python从文件中读取字符串，用正则表达式匹配中文字符的问题
2013-07-27 21:01:37| 在Windows下,用Python从.txt文件中读取字符串,并用正则表达式匹配中文,在网上看了方法,用的时候发现中文没有被匹配. ...
Python从文件中读取数据
一.读取整个文件内容在读取文件之前,我们先创建一个文本文件resource.txt作为源文件. resource.txt my name is joker, I am 18 years old, H ...
Python从文件中读取数据（2）
一.读取文件中各行的内容并存储到一个列表中继续用resource.txt 举例 resource.txt my name is joker, I am 18 years old, How about ...
Python从文件中读取内容，包含中文和英文
读取文件内容使要和保存文件时的格式一致以UTF-8格式保存文件,如: 读取: 在.py起始行写入:#-*- coding:utf-8 -*- filename = raw_input(u" ...
Objective-C 【从文件中读写字符串（直接读写/通过NSURL读写）】
———————————————————————————————————————————从文件中读写字符串(直接读写/通过NSURL读写) #import <Foundation/Foundati ...
利用PushbackReader读取文件中某个字符串之前的内容
package File; import java.io.FileReader; import java.io.IOException; import java.io.PushbackReader; ...
c++ 读取不了hdf5文件中的字符串
问题描述: 在拿到一个hdf5文件,想用c++去读取文件中的字符串,但是会报错:read failed ps: c++读取hdf5的字符串方法见:https://support.hdfgroup.or ...
新手C#s.Split()，s.Substring(，)以及读取txt文件中的字符串的学习2018.08.05
s.split()用于字符串分割,具有多种重载方法,可以通过指定字符或字符串分割原字符串成为字符串数组. //s.Split()用于分割字符串为字符串数组,StringSplitOptions.Rem ...
【Python】从文件中读取数据
从文件中读取数据 1.1 读取整个文件要读取文件,需要一个包含几行文本的文件(文件PI_DESC.txt与file_reader.py在同一目录下) PI_DESC.txt 3.1415926535 ...

随机推荐

wpf ListBox删除选择项（支持多项）
搞了个ListBox删除选择项,开始老是不能把选择项删除干净,剩下几个.后来调试一下原来是ListBox在删除一个选择项之后立即更新,选择项也有变化.结果我想了个这样的方法来删除呵呵. Departm ...
Java VS Python 应该先学哪个？
http://blog.segmentfault.com/hlcfan/1190000000361407 http://www.tuicool.com/articles/fqAzqi Java 和 P ...
日常-acm-鸡兔同笼
已知鸡和兔总数量n,总腿数m.输入n和m,依次输出鸡的数量和兔的数量.如果无解,则输出No answer. 样例输入: 14 32 样例输出: 12 2 样例输入: 10 16 样例输出: No an ...
Python re module (regular expressions)
regular expressions (RE) 简介 re模块是python中处理正在表达式的一个模块 r"""Support for regular expressi ...
完整的.h宏定义
##封装中的要点 __declspec(dllexport) 表明函数为导出函数 * `extern "C"` 导出的函数名与声明一致,否则导出函数名无法正常使用当然,也可以通过 ...
JS Math方法、逻辑
Math.PI; // 返回 3.141592653589793 Math.round(x) 的返回值是 x 四舍五入为最接近的整数. Math.pow(x, y) 的返回值是 x 的 y 次幂. M ...
JQuery EasyUI学习记录（一）
1.主页设计(JQuery EasyUI插件) 下载easyUI开发包: 将easyUI资源文件导入页面中: <link rel="stylesheet" type=&quo ...
c#自定义类型之间的转换（强制类型转换）
public class ResultModel { public string PlateNumber { get; set; } public int PlateColor { get; set; ...
Thinkphp5的安装
很长没有码代码了,现在开始做这件事情的意义已经完全与以前不一样了.因为最近有相当长的一段休息时间,是个学习的好时间啊.之前接触过TP3.2,听说后来的版本有挺大的改动,因此呢,现在终于有时间可以好好的 ...
LeetCode之Weekly Contest 102
第一题:905. 按奇偶校验排序数组问题: 给定一个非负整数数组 A,返回一个由 A 的所有偶数元素组成的数组,后面跟 A 的所有奇数元素. 你可以返回满足此条件的任何数组作为答案. 示例: 输入: ...

利用Python从文件中读取字符串（解决乱码问题）

利用Python从文件中读取字符串（解决乱码问题）的更多相关文章

随机推荐

热门专题