[python]乱码：python抓取脚本

参考：

http://www.zhxl.me/1409.html

使用 python urllib2 抓取网页时出现乱码的解决方案

发表回复

这里记录的是一个门外汉解决使用 urllib2 抓取网页时遇到乱码、崩溃、求助、解决和涨经验的过程。这类问题，事后看来只是个极小极小的坑，不过竟然花去很多时间，也值得记录一下。过程如下：

目标：

抓取 http://sports.sina.com.cn/g/premierleague/index.shtml

代码：

# coding: u8

import urllib2

url = "http://sports.sina.com.cn/g/premierleague/index.shtml"

response = urllib2.urlopen(url)

html = response.read()

print html

输出：

wױ83′͠L/J

.uVխ[w5;:S煝{7l!Zp8'-y϶=ePUsł;__Zj

::]K챵

eYڕkV%IBUVY”*’)ڤS.

JT>”TTZk+!x*)ld2I,kUUҭ/kXjjkHI U0n2}jUSݲ”>!pj^[Ǉg'o^=Nqȕ7n|57yy'\ul

j=9T,g/t0ݕ7'^o|v}>8=7흯!tpٹˏgFS?zd~`MuC%U2\ f߉Vqߍ7~2~ɓlE=}M}Xwo}us'>?*zpS:7Oݚ~чb=

HK!sعinQR}@TsY|,#b\d+#yM@qaRTPVNw

?[((tGP,A$O/EXP)oNgA\`Z

eL7ȓVn+

ɄeR fT`&WՂbV

f{

j_p@-@[Ib_ͷCZ'!4O1C,کhy b0W(ժZ˨V5-ټX)5{EkvXÝN (PPUCkϫ? j(

V3{Z!LOOP+LP%WPL!\=! @XD8ׯjpT,W+#we~م {CBo@_Y+ijp;^,=(h :NxH|Ar]-|Bkq<

ڻ+}.ܹlt.)cptRXJ4CJЃBv@BXdP&6dógsR^=/fb@s#m} uZh.V80_)$.1W

hS*zQJÑ|ă{nIPa±a#نL<SA

%^yg2*\fxJhQh_FBK(c%cBKwaHeRB 8w6<ϾK @.k*[k|^_¹BV;,pu]24Y

BwԢCm3`>#FzFG-%Ũ

W0A{TȪ#u4@e24߈*:*6Ђt&XGe@dc%cເh|΀y$HhGv3s$(Y)sYMvE@lC(.tkب6K(E;Op1?:

D6wОƘfO&zqZ3Z>0MC{ڟi#.

tPڻu-u-t38X Wt2h!.>;TVKrj_$yABZȊ6.ƭI\yK:￢

s#lhsxzb=INse/FUad4H3lnHo0T^”j*]yfrMY!׋-#I(YVaΡ@1kE뗴2=qRtۈh@y@(GX)I-Z$lNX,vg^~cE

/虬&jz=АUdY__\FGA} …

首先想到编码问题，参考了《也谈Python的中文编码处理》一文 ，感觉基本明白怎么回事儿了，按理说

isinstance(html, str) == True

并且页面的编码确定为 GBK，那么

html.decode('gbk').encode('utf-8')

就可以将机器码以 gbk 解码，再重新以 utf- 编码，就可以得到正确的文本。可是收到这样的提示：

UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position -: illegal multibyte sequence

经过在 v2ex 求助，以及反复折腾了一下发现得到的果然是 gzip 过的乱码，于是尝试通过 zlib 解压缩

import zlib

html = zlib.decompress(html)

可是却得到下面的错误

zlib.error: Error - while decompressing data: incorrect header check

无奈，只得用 gzip 库和 StringIO 库绕路解决

import gzip, StringIO

html = gzip.GzipFile(fileobj=StringIO.StringIO(html), mode="r")

html = html.read().decode('gbk').encode('utf-8’)

终于得到了正确的内容和正确的编码~ ^^

问题到这里就解决了，可是对于不能直接使用简洁的 zlib 库表示很不甘心，毕竟根据 python 的文档 gzip 库也是调用 zlib 来解压的，为什么不直接用 zlib 呢？功夫不负有心人，最后终于在 StackOverflow 上找到了答案。于是最终代码如下：

request = urllib2.Request(url)

request.add_header('Accept-encoding', 'gzip')

opener = urllib2.build_opener()

response = opener.open(request)html = response.read()

gzipped = response.headers.get('Content-Encoding')

if gzipped:

    html = zlib.decompress(html, +zlib.MAX_WBITS)

print html

代码里在 request header 中默认加入了接受 gzip，服务器会优先返回 gzip 后的页面，这样极大减少数据流的大小，绝大多数服务器都是支持 gzip 的。之后对于意外情况，也加入了对 response header 的判断，对于不包含“Content-Encoding”的数据流就不会去对其解压缩。这样看上去妥妥的了，但其实还是会有很多意外状况，超出这篇的范围，这里就不涉及了。

后记，后来才知道这是一个很常见的坑，出于对防止抓取的考虑，部分网站采取了各种措施。例如：对于没有指定 Accept-Encoding 的请求也会返回 gzip 过的内容；会验证 Request Header 的 User-Agent 和 Referer 甚至 cookies 之类的。对于抓取感兴趣的可以继续阅读《用Python抓取网页的注意事项》，网页抓取虽然是个很成熟的领域，但门外汉面临诸多未知的挑战，唯有多读多做多积累才好。

[python]乱码：python抓取脚本的更多相关文章

测试开发Python培训：抓取新浪微博抓取数据-技术篇
测试开发Python培训:抓取新浪微博抓取数据-技术篇 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的se ...
测试开发Python培训：抓取新浪微博评论提取目标数据-技术篇
测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇在前面我分享了几个新浪微博的自动化脚本的实现,下面我们继续实现新的需求,功能需求如下: 1,登陆微博 2,抓取评论页内容3,用正则表 ...
Python分布式爬虫抓取知乎用户信息并进行数据分析
在以前的文章中,我写过一篇使用selenium来模拟登录知乎的文章,然后在很长一段时间里都没有然后了... 不过在最近,我突然觉得,既然已经模拟登录到了知乎了,为什么不继续玩玩呢?所以就创了一个项目, ...
Python 3.6 抓取微博m站数据
Python 3.6 抓取微博m站数据 2019.05.01 更新内容 containerid 可以通过 "107603" + user_id 组装得到,无需请求个人信息获取: 优 ...
如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...
Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
用python实现的抓取腾讯视频所有电影的爬虫
1. [代码]用python实现的抓取腾讯视频所有电影的爬虫 # -*- coding: utf-8 -*-# by awakenjoys. my site: www.dianying.atim ...
利用Python网络爬虫抓取微信好友的签名及其可视化展示
前几天给大家分享了如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化,利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,以及利用Python网络爬虫抓取微信好友的所 ...
利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化
前几天给大家分享了如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,感兴趣的小伙伴可以点击链接进行查看.今天小编给大家介绍如何利用Python网络爬虫抓取微信好友的省位和城市,并且将 ...
如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例
前几天给大家分享了利用Python网络爬虫抓取微信朋友圈的动态(上)和利用Python网络爬虫爬取微信朋友圈动态——附代码(下),并且对抓取到的数据进行了Python词云和wordart可视化,感兴趣 ...

随机推荐

Windows 下在 Python (Anaconda) 中安装 Dlib 库
0. 引言介绍在 Windows 操作系统下,在 Python 的 Anaconda 集成环境中,安装 Dlib 库 : 对于不了解源码编译的,或者利用 cmake 方法失败的,可以尝试下此方法: ...
局域网安全-MAC Flood/Spoof
原文发表于:2010-09-22 转载至cu于:2012-07-21 很早之前就看过秦柯讲的局域网安全的视频.但是看了之后在实际工作当中很少用到(指我个人的工作环境中,惭愧啊…),时间长了,好多技术细 ...
Ubuntu系统下在PyCharm里用virtualenv集成TensorFlow
我的系统环境 Ubuntu 18.04 Python3.6 PyCharm 2018.3.2 community(免费版) Java 1.8 安装前准备由于众所周知的原因,安装中需要下载大量包,尽量 ...
数据库mysql的常规操作
1. 什么是数据库? 数据库(Database)是按照数据结构来组织.存储和管理数据的建立在计算机存储设备上的仓库. 简单来说是本身可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进 ...
Action Required: Please provide your Tax Identity Information - Amazon Seller Tax Identity Collection
Hello ***, Your selling privileges have been suspended because we have not received required tax i ...
用vsstudio 设计Winform 高分屏上布局错乱的问题
在使用win10高分辨率150%,200%系统进行winform开发时, 会有布局错乱的现象,比如之前定义的300px的宽度,往往被设置成600px (200%分辨率下). 这个问题vs2015的解决 ...
shell命令之at 执行一次性定时任务的用法
大家都知道crontab是执行定时任务的命令,那么at又是什么呢? 其实at也是定时任务命令,不同的是crontab是执行循环任务,at执行一次性任务首先说下时间例子 Minute at no ...
ES6的新特性（5）——数值的扩展
数值的扩展二进制和八进制表示法 ES6 提供了二进制和八进制数值的新的写法,分别用前缀0b(或0B)和0o(或0O)表示. 0b111110111 === 503 // true 0o767 === ...
安装VS的过程
软件工程学习到第三周,我们需要下载一个新的软件,用来进行软件测试.刚开始知道的时候觉得没甚么,不就是下个软件吗!有什么大不了的,分分钟搞定的事.可是想象很美好,现实很骨感.这是一个巨大的工作量呀,不仅 ...
IE劫持
解析雅虎与百度流氓原理- 为什么“浏览器劫持”能够如此猖狂呢?放眼众多论坛的求助贴,我们不时可以看到诸如“我的IE被主页被改了,我用杀毒工具扫了一遍都没发现病毒,我把主页改回自己的地址,可是一重启它又 ...

[python]乱码：python抓取脚本

[python]乱码：python抓取脚本的更多相关文章

随机推荐

热门专题