Python 2.7.3 urllib2.urlopen 获取网页出现乱码解决方案

出现乱码的原因是，网页服务端有bug，它硬性使用使用某种特定的编码方案，而并没有按照客户端的请求头的编码要求来发送编码。

解决方案：使用chardet来猜测网页编码。

1.去chardet官网下载chardet的py源码包。

2.把chardet目录从源码包里解压到项目文件夹内。

3.通过 import chardet 来引用它，然后：

 response = None

 #尝试下载网页

 try:

     response = urllib2.urlopen("http://www.baidu.com")

 except Exception as e:

     print "错误：下载网页时遇到问题：" + str(e)

     return

 if response.code != 200:

     print "错误：访问后，返回的状态代码（Code）并不是预期值【200】，而是【" + str(response.code) + "】"

     return

 if response.msg != "OK":

     print "错误：访问后，返回的状态消息并不是预期值【OK】，而是【" + response.msg + "】"

     return

 #读取html代码

 htmlCode = None

 try:

     htmlCode = response.read()

 except Exception as e:

     print "错误：下载完毕后，从响应流里读出网页代码时遇到问题：" + str(e)

     return

 #处理网页编码

 htmlCode_encode = None

 try:

     #猜编码类型

     htmlCharsetGuess = chardet.detect(htmlCode)

     htmlCharsetEncoding = htmlCharsetGuess["encoding"]

     #解码

     htmlCode_decode = htmlCode.decode(htmlCharsetEncoding)

     #获取系统编码

     currentSystemEncoding = sys.getfilesystemencoding()

     #按系统编码，再进行编码。

     '''

         做这一步的目的是，让编码出来的东西，可以在python中进行处理

         比如:

              key = "你好"

              str = "xxxx你好yyyy"

              keyPos = str.find( key )

         如果不做再编码，这一步就可能会报错出问题

     '''

     htmlCode_encode = htmlCode_decode.encode(currentSystemEncoding)

     except Exception as e:

         print "错误：在处理网页编码时遇到问题：" + str(e)

         return

 #htmlCode_encode即为所求

 return htmlCode_encode

Python 2.7.3 urllib2.urlopen 获取网页出现乱码解决方案的更多相关文章

【真相揭秘】requests获取网页编码乱码本质
有没有被网页编码抓狂,怎么转都是乱码. 通过查看requests源代码,才发现是库本身历史原因造成的. 作者是严格http协议标准写这个库的,<HTTP权威指南>里第16章国际化里提到,如 ...
node爬虫之gbk网页中文乱码解决方案
之前在用 node 做爬虫时碰到的中文乱码问题一直没有解决,今天整理下备忘.(PS:网上一些解决方案都已经不行了) 中文乱码具体是指用 node 请求 gbk 编码的网页,无法正确获取网页中的中文(需 ...
Python获取网页Html文本
Python爬虫基础 1.获取网页文本通过urllib2包,根据url获取网页的html文本内容并返回 #coding:utf-8 import requests, json, time, re, ...
python使用urllib2抓取网页
1.使用python的库urllib2,用到urlopen和Request方法. 2.方法urlopen原形 urllib2.urlopen(url[, data][, timeout]) 其中: u ...
Python获取网页指定内容(BeautifulSoup工具的使用方法)
Python用做数据处理还是相当不错的,如果你想要做爬虫,Python是很好的选择,它有很多已经写好的类包,只要调用,即可完成很多复杂的功能,此文中所有的功能都是基于BeautifulSoup这个包. ...
Python爬虫学习——获取网页
通过GET请求获取返回的网页,其中加入了User-agent信息,不然会抛出"HTTP Error 403: Forbidden"异常, 因为有些网站为了防止这种没有User-ag ...
有关利用python获取网页，以及KDD近几年论文标题与摘要链接
最近一直在看KDD的论文,不过,由于老师并没有什么合理的方向性,所以考虑把kdd中的大部分内容都利用python将所有标题.摘要获取下来. 还有一个原因在于,看acm上的摘要,都只显示了两行,再看多点 ...
Python爬虫学习之获取网页源码
偶然的机会,在知乎上看到一个有关爬虫的话题<利用爬虫技术能做到哪些很酷很有趣很有用的事情?>,因为强烈的好奇心和觉得会写爬虫是一件高大上的事情,所以就对爬虫产生了兴趣. 关于网络爬虫的定义 ...
Python: PySide(Qt)异步获取网页源码
学习PyQt UI编程笔记.相对PyQt来说,PySide资料为少. 此篇记录异步获取代码后,同步显示于界面窗体中,涉及线程网步,此为知识点. 直录代码: # encoding: utf-8 from ...

随机推荐

Android属于查询执行情况的电话号码
这部分是昨天学习,但是因为眼所以现在到眼睛超负荷,以后要合理规划时间. 现在里面的手机号码归属地查询主要通过两种途径:1.网络查询.2.匹配本地归属地数据库. 我认为最好的两个方法的结合,在进行联网查 ...
SQL Server中tempdb的管理
原文:SQL Server中tempdb的管理资料来自: http://blogs.msdn.com/b/sqlserverstorageengine/archive/tags/tempdb/ ht ...
于Eclipse传导C/C++配置方法开发（20140721新）
Eclipse 它是一个开源.基于Java可扩展的开发平台. 在其自己的.它只是一个框架和一组服务.对于通过插件组件构建开发环境. --从百度百科的短语. 简单的说Eclipse 是免费的开源的Jav ...
Android L中间RecyclerView 、CardView 、Palette使用
RecyclerView CardView Palette <Material Design>提到,Android L版本号中新增了RecyclerView.CardView .Palet ...
Repeater在无数据记录时显示暂无数据
原文:Repeater在无数据记录时显示暂无数据方法就是在FooterTemplate加个Label并根据repeater.Items.Count判断是否有记录.关键代码如下: <Footer ...
Think in Java(一)：Java基础
一. OOP的特点 (1) 万物皆为对象; (2) 程序是对象的集合,他们通过发送信息来告诉彼此所要做的; (3) 每一个对象都有自己的由其它对象所构成的存储; (4) 每一个对象都拥有它的类型; ( ...
Kafka （一）
使用Kafka最新版本0.9 Kafka 配置 1. 安装首先需要安装Java,推荐安装Java8,不然会出现一些莫名其妙的错误 kafka_2.11-0.9.0.0.tgz tar -xzf ka ...
打包静默安装参数(nsis,msi,InstallShield,InnoSetup)
原文:打包静默安装参数(nsis,msi,InstallShield,InnoSetup)[转] 有时我们在安装程序的时候,希望是静默安装的,不显示下一步下一步,这编访问来教大家如何来操作,现在常用的 ...
TDD和BDD
开发人员看测试之TDD和BDD 前言: 已经数月没有来园子了,写博客贵在坚持,一旦松懈了,断掉了,就很难再拾起来.但是每每看到自己博客里的博文的浏览量每天都在增加,都在无形当中给了我继续写博客的动 ...
Installing IIS 8.5 on Windows Server 2012 R2
原文 Installing IIS 8.5 on Windows Server 2012 R2 Introduction This document describes how to install ...

Python 2.7.3 urllib2.urlopen 获取网页出现乱码解决方案

Python 2.7.3 urllib2.urlopen 获取网页出现乱码解决方案的更多相关文章

随机推荐

热门专题