对于人类能够识别的字符，计算机会根据某一对应关系将其转换为二进制形式进行保存。这个对应关系就是字符编码表，即什么样的字符对应什么样的二进制编码。这种字符编码表往往是多种多样的，因此，如果我们想要将一个未知编码的二进制文件转换为可读文本进行显示，就需要考其使用的是什么类型的字符编码。关于字符编码的进一步介绍见文章字符集和字符编码。

现实中，往往根据各种字符编码的特征字符来猜测当前文件使用的是什么类型的字符编码。但是许多字符对于不同字符编码是通用的，区别在于每种编码可能使用不同的字节序列来存储同一字符，根据这一特性再进一步处理。在Python中，chardet库能够提供了实现字符编码自动检测的函数。chardet支持绝大部分常见字符编码的识别，其官方仓库见：chardet。chardet安装指令如下：

pip install chardet

1 使用

基础使用

chardet提供detect函数接口实现字符编码的自动检测。detect函数接受一个参数，即非Unicode字符串。它返回一个字典，其中包含自动检测到的字符编码和范围为0到1的置信度，还有语言类型。

# 导入库

import urllib.request

import chardet

# 读取网站

rawdata = urllib.request.urlopen('http://baidu.com/').read()

# 可以看到使用的是ascii编码

chardet.detect(rawdata)

{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}

# 读取网站

rawdata = urllib.request.urlopen('http://en.people.cn/').read()

# 可以看到使用的是utf-8编码

chardet.detect(rawdata)

{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}

# 创建utf-8字节类型数据

data = bytes('hello, world', encoding='utf-8')

print(data)

chardet.detect(data)

b'hello, world'

{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}

# bytes类型可以直接通过python的decode函数进行解码

data.decode('ascii')

'hello, world'

# 创建utf-8字节类型数据，这里可以看到utf-8是最高效的编码方式。

data = bytes('hello, world!你好世界！', encoding='utf-8')

print(data)

chardet.detect(data)

b'hello, world!\xe4\xbd\xa0\xe5\xa5\xbd\xe4\xb8\x96\xe7\x95\x8c\xef\xbc\x81'

{'encoding': 'utf-8', 'confidence': 0.9690625, 'language': ''}

# bytes类型可以直接通过python的decode函数进行解码

data.decode('utf-8')

'hello, world!你好世界！'

data = bytes('你好世界', encoding='GBK')

# 识别可能错误

chardet.detect(data)

{'encoding': None, 'confidence': 0.0, 'language': None}

# 需要更丰富的字符数据提高识别率

data = bytes('你好世界，你好', encoding='GBK')

chardet.detect(data)

{'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}

大量文本识别

如果您正在处理大量文本，您可以调用UniversalDetector，以加快识别速度。下面的代码首先创建一个UniversalDetector对象，然后对大型文本分块识别，每个文本块用其检测方法feed。如果检测器达到最小置信阈值，它将设置detector.done为True，进而输出当前文本的字符编码。

import urllib.request

from chardet.universaldetector import UniversalDetector

usock = urllib.request.urlopen('http://baidu.com/')

detector = UniversalDetector()

for line in usock.readlines():

    detector.feed(line)

    if detector.done: break

detector.close()

usock.close()

print(detector.result)

{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}

对于多个文件或多个字符串，也可以使用UniversalDetector加快识别速度。



from chardet.universaldetector import UniversalDetector

texta = bytes('hello, world', encoding='utf-8')

textb = bytes('你好世界，你好', encoding='GBK')

detector = UniversalDetector()

for data in [texta,textb]:

    # 检测器重置

    detector.reset()

    detector.feed(data)

    if detector.done: break

    detector.close()

    print(detector.result)

{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}

{'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}

UnicodeDammit的使用

UnicodeDammit是beautifulsoup的内置库, 用于猜测字符编码。在UnicodeDammit中集成了chardet模块使得我们可以快速获取字符编码。

from bs4 import UnicodeDammit

data = bytes('你好世界，你好', encoding='GBK')

dammit = UnicodeDammit(data)

# 解码结果

print(dammit.unicode_markup)

# 打印编码结果

print(dammit.original_encoding)

# 或直接调用chardet

print(dammit.detector.chardet_encoding)

你好世界，你好

gb2312

GB2312

2 参考

[python] 基于chardet识别字符编码的更多相关文章

python之旅：字符编码
一了解字符编码的知识储备一计算机基础知识知识储备:cpu.内存.硬盘二文本编辑器存取文件的原理(nodepad++,pycharm,word) #1.打开编辑器就打开了启动了一个进程,是在 ...
用chardet判断字符编码的方法
转自http://www.cnblogs.com/xiaowuyi/archive/2012/03/09/2387173.html 用chardet判断字符编码的方法 1.chardet下载与安装 ...
python基础——6（字符编码，文件操作）
今日内容: 1.字符编码: 人识别的语言与机器识别的语言转化的媒介 ***** 2.字符与字节: 字符占多少字节,字符串转化 *** 3.文件操作: 操作硬盘中的一块区域:读写操作 ...
python文件操作：字符编码与文件处理
一.字符编码二.文件处理一.字符编码储备知识点: 1. 计算机系统分为三层: 应用程序操作系统计算机硬件 2. 运行python程序的三个步骤 1. 先启动python解释器 2. 再将py ...
python文件操作与字符编码
知识内容: 1.文件对象与文件处理流程 2.基本操作 3.上下文管理 4.文件的修改与文件内光标的移动 5.字符编码一.文件对象与文件处理流程 1.文件对象 (1)文件分类按文件中数据的组织形式可 ...
python（10）- 字符编码
一什么是编码? 基本概念很简单.首先,我们从一段信息即消息说起,消息以人类可以理解.易懂的表示存在.我打算将这种表示称为“明文”(plain text).对于说英语的人,纸张上打印的或屏幕上显示的英 ...
python（4）- 字符编码
一什么是编码? 基本概念很简单.首先,我们从一段信息即消息说起,消息以人类可以理解.易懂的表示存在.我打算将这种表示称为“明文”(plain text).对于说英语的人,纸张上打印的或屏幕上显示的英 ...
小白的Python之路 day1 字符编码
字符编码 python解释器在加载 .py 文件中的代码时,会对内容进行编码(默认ascill) ASCII(American Standard Code for Information Interc ...
Python 入门基础6 --字符编码、文件操作1
今日内容: 1.字符编码 2.字符与字节 3.文件操作一.字符编码了解: cpu:将数据渲染给用户内存:临时存放数据,断电消失硬盘:永久存放数据,断电后不消失 1.1 什么是编码? 人类能够识 ...

随机推荐

linux基础总结
linux的特点 - 免费的/开源 - 支持多线程/多用户 - 安全性好 - 对内存和文件管理优越关机命令 shutdown -h now(立即进行关机 ...
Ubuntu 环境下安装 Docker
系统要求 Docker目前只能运行在64位平台上,并且要求内核版本不低于3.10,实际上内核越新越好,过低的内核版本容易造成功能不稳定. 用户可以通过如下命令检查自己的内核版本详细信息: $ unam ...
驱动开发：内核监控FileObject文件回调
本篇文章与上一篇文章<驱动开发:内核注册并监控对象回调>所使用的方式是一样的都是使用ObRegisterCallbacks注册回调事件,只不过上一篇博文中LyShark将回调结构体OB_O ...
沁恒CH32V003F4P6 开发板上手报告和Win10环境配置
CH32V003 沁恒最近推出的低价CH32V003系列, 基于青稞RISC-V2A内核, 48MHz主频, 2KB SRAM, 16KB Flash, 工作电压兼容3.3V和5V. 主要参数如下 S ...
Codeforces Round #831 (Div. 1 + Div. 2) A-E
比赛链接 A 题解知识点:数学. $2$ 特判加 $7$,其他加 $3$ 直接偶数. 时间复杂度 $O(1)$ 空间复杂度 $O(1)$ 代码 #include <bits ...
　iOS App 上架App Store及提交审核详细教程
上架App Store审核分7步进行: 1.安装iOS上架辅助软件Appuploader 2.申请iOS发布证书(p12) 3.申请iOS发布描述文件(mobileprovision) 4.打包ipa ...
测试开发jmeter forEach控制器
测试开发jmeter forEach控制器 forEach控制器的使用场景:主要是对大量数据轮询就行接口请求 forEach控制器的使用前提:将数据进行参数化测试开发jmeter forEach控制 ...
在ubuntu 上安装golang
https://golang.google.cn/dl/ 方式一下载安装包 wget https://golang.google.cn/dl/go1.19.linux-amd64.tar.gz 解压 ...
我的Spark学习笔记
一.架构设计 Driver根据用户代码构建计算流图,拆解出分布式任务并分发到 Executors 中去:每个Executors收到任务,然后处理这个 RDD 的一个数据分片子集 DAGSchedule ...
Jmeter——请求响应内容乱码解决办法
前段时间,换过一次设备,重新下载了Jmeter.有一次在编写脚本时,响应内容中的中文一直显示乱码. 遇到乱码不要慌,肯定是有办法来解决的.具体解决办法,可以参考之前的博文,Jmeter--BeanSh ...

[python] 基于chardet识别字符编码

1 使用

2 参考

[python] 基于chardet识别字符编码的更多相关文章

随机推荐

热门专题