urllib库初体验以及中文编码问题的探讨

提出问题：如何简单抓取一个网页的源码
解决方法：利用urllib库，抓取一个网页的源代码

------------------------------------------------------------------------------------

代码示例

#python3.4

import urllib.request

response = urllib.request.urlopen("http://zzk.cnblogs.com/b")

print(response.read())

运行结果

b'\n<!DOCTYPE html>\n<html>\n<head>\n    <meta charset="utf-8"/>\n    <title>\xe6\x89\xbe\xe6\x89\xbe\xe7\x9c\x8b - \xe5\x8d\x9a\xe5\xae\xa2\xe5\x9b\xad</title>    \n    <link rel="shortcut icon" href="/Content/Images/favicon.ico" type="image/x-icon"/>\n    <meta content="\xe6\x8a\x80\xe6\x9c\xaf\xe6\x90\x9c\xe7\xb4\xa2,IT\xe6\x90\x9c\xe7\xb4\xa2,\xe7\xa8\x8b\xe5\xba\x8f\xe6\x90\x9c\xe7\xb4\xa2,\xe4\xbb\xa3\xe7\xa0\x81\xe6\x90\x9c\xe7\xb4\xa2,\xe7\xa8\x8b\xe5\xba\x8f\xe5\x91\x98\xe6\x90\x9c\xe7\xb4\xa2\xe5\xbc\x95\xe6\x93\x8e" name="keywords" />\n    <meta content="\xe9\x9d\xa2\xe5\x90\x91\xe7\xa8\x8b\xe5\xba\x8f\xe5\x91\x98\xe7\x9a\x84\xe4\xb8\x93\xe4\xb8\x9a\xe6\x90\x9c\xe7\xb4\xa2\xe5\xbc\x95\xe6\x93\x8e\xe3\x80\x82\xe9\x81\x87\xe5\x88\xb0\xe6\x8a\x80\xe6\x9c\xaf\xe9\x97\xae\xe9\xa2\x98\xe6\x80\x8e\xe4\xb9\x88\xe5\x8a\x9e\xef\xbc\x8c\xe5\x88\xb0\xe5\x8d\x9a\xe5\xae\xa2\xe5\x9b\xad\xe6\x89\xbe\xe6\x89\xbe\xe7\x9c\x8b..." name="description" />\n    <link type="text/css" href="/Content/Style.css" rel="stylesheet" />\n    <script src="http://common.cnblogs.com/script/jquery.js" type="text/javascript"></script>\n    <script src="/Scripts/Common.js" type="text/javascript"></script>\n    <script src="/Scripts/Home.js" type="text/javascript"></script>\n</head>\n<body>\n    <div class="top">\n        \n        <div class="top_tabs">\n            <a href="http://www.cnblogs.com">\xc2\xab \xe5\x8d\x9a\xe5\xae\xa2\xe5\x9b\xad\xe9\xa6\x96\xe9\xa1\xb5 </a>\n        </div>\n        <div id="span_userinfo" class="top_links">\n        </div>\n    </div>\n    <div style="clear: both">\n    </div>\n    <center>\n        <div id="main">\n            <div class="logo_index">\n                <a href="http://zzk.cnblogs.com">\n                    <img alt="\xe6\x89\xbe\xe6\x89\xbe\xe7\x9c\x8blogo" src="/images/logo.gif" /></a>\n            </div>\n            <div class="index_sozone">\n                <div class="index_tab">\n                    <a href="/n" onclick="return  channelSwitch('n');">\xe6\x96\xb0\xe9\x97\xbb</a>\n<a class="tab_selected" href="/b" onclick="return  channelSwitch('b');">\xe5\x8d\x9a\xe5\xae\xa2</a>                    <a href="/k" onclick="return  channelSwitch('k');">\xe7\x9f\xa5\xe8\xaf\x86\xe5\xba\x93</a>\n                    <a href="/q" onclick="return  channelSwitch('q');">\xe5\x8d\x9a\xe9\x97\xae</a>\n                </div>\n                <div class="search_block">\n                    <div class="index_btn">\n                        <input type="button" class="btn_so_index" onclick="Search();" value="&nbsp;\xe6\x89\xbe\xe4\xb8\x80\xe4\xb8\x8b&nbsp;" />\n                        <span class="help_link"><a target="_blank" href="/help">\xe5\xb8\xae\xe5\x8a\xa9</a></span>\n                    </div>\n                    <input type="text" onkeydown="searchEnter(event);" class="input_index" name="w" id="w" />\n                </div>\n            </div>\n        </div>\n        <div class="footer">\n            &copy;2004-2016 <a href="http://www.cnblogs.com">\xe5\x8d\x9a\xe5\xae\xa2\xe5\x9b\xad</a>\n        </div>\n    </center>\n</body>\n</html>\n'

附上python2.7的实现代码：

#python2.7

import urllib2

response = urllib2.urlopen("http://zzk.cnblogs.com/b")

print response.read()

可见，python3.4和python2.7的代码存在差异性。

----------@_@？问题出现！----------------------------------------------------------------------

发现问题：查看上面的运行结果，会发现中文并没有正常显示。
解决问题：处理中文编码问题

--------------------------------------------------------------------------------------------------

处理源码中的中文问题！！！

修改代码，如下：

#python3.4

import urllib.request

response = urllib.request.urlopen("http://zzk.cnblogs.com/b")

print(response.read().decode('UTF-8'))

运行，结果显示：

C:\Python34\python.exe E:/pythone_workspace/mydemo/spider/demo.py

<!DOCTYPE html>

<html>

<head>

    <meta charset="utf-8"/>

    <title>找找看 - 博客园</title>

    <link rel="shortcut icon" href="/Content/Images/favicon.ico" type="image/x-icon"/>

    <meta content="技术搜索,IT搜索,程序搜索,代码搜索,程序员搜索引擎" name="keywords" />

    <meta content="面向程序员的专业搜索引擎。遇到技术问题怎么办，到博客园找找看..." name="description" />

    <link type="text/css" href="/Content/Style.css" rel="stylesheet" />

    <script src="http://common.cnblogs.com/script/jquery.js" type="text/javascript"></script>

    <script src="/Scripts/Common.js" type="text/javascript"></script>

    <script src="/Scripts/Home.js" type="text/javascript"></script>

</head>

<body>

    <div class="top">

        <div class="top_tabs">

            <a href="http://www.cnblogs.com">« 博客园首页 </a>

        </div>

        <div id="span_userinfo" class="top_links">

        </div>

    </div>

    <div style="clear: both">

    </div>

    <center>

        <div id="main">

            <div class="logo_index">

                <a href="http://zzk.cnblogs.com">

                    <img alt="找找看logo" src="/images/logo.gif" /></a>

            </div>

            <div class="index_sozone">

                <div class="index_tab">

                    <a href="/n" onclick="return  channelSwitch('n');">新闻</a>

<a class="tab_selected" href="/b" onclick="return  channelSwitch('b');">博客</a>                    <a href="/k" onclick="return  channelSwitch('k');">知识库</a>

                    <a href="/q" onclick="return  channelSwitch('q');">博问</a>

                </div>

                <div class="search_block">

                    <div class="index_btn">

                        <input type="button" class="btn_so_index" onclick="Search();" value="&nbsp;找一下&nbsp;" />

                        <span class="help_link"><a target="_blank" href="/help">帮助</a></span>

                    </div>

                    <input type="text" onkeydown="searchEnter(event);" class="input_index" name="w" id="w" />

                </div>

            </div>

        </div>

        <div class="footer">

            &copy;2004-2016 <a href="http://www.cnblogs.com">博客园</a>

        </div>

    </center>

</body>

</html>

Process finished with exit code 0

结果显示：处理完编码后，网页源码中中文可以正常显示了

-----------@_@! 探讨一个新的中文编码问题 ----------------------------------------------------------

　　　问题：“如果url中出现中文，那么应该如果解决呢？”

　　　例如：url = "http://zzk.cnblogs.com/s?w=python爬虫&t=b"

-----------------------------------------------------------------------------------------------------

接下来，我们来解决url中出现中文的问题！！！

（1）测试1：保留原来的格式，直接访问，不做任何处理

代码示例：

#python3.4

import urllib.request

url="http://zzk.cnblogs.com/s?w=python爬虫&t=b"

resp = urllib.request.urlopen(url)

print(resp.read().decode('UTF-8'))

运行结果：

C:\Python34\python.exe E:/pythone_workspace/mydemo/spider/demo.py

Traceback (most recent call last):

  File "E:/pythone_workspace/mydemo/spider/demo.py", line 9, in <module>

    response = urllib.request.urlopen(url)

  File "C:\Python34\lib\urllib\request.py", line 161, in urlopen

    return opener.open(url, data, timeout)

  File "C:\Python34\lib\urllib\request.py", line 463, in open

    response = self._open(req, data)

  File "C:\Python34\lib\urllib\request.py", line 481, in _open

    '_open', req)

  File "C:\Python34\lib\urllib\request.py", line 441, in _call_chain

    result = func(*args)

  File "C:\Python34\lib\urllib\request.py", line 1210, in http_open

    return self.do_open(http.client.HTTPConnection, req)

  File "C:\Python34\lib\urllib\request.py", line 1182, in do_open

    h.request(req.get_method(), req.selector, req.data, headers)

  File "C:\Python34\lib\http\client.py", line 1088, in request

    self._send_request(method, url, body, headers)

  File "C:\Python34\lib\http\client.py", line 1116, in _send_request

    self.putrequest(method, url, **skips)

  File "C:\Python34\lib\http\client.py", line 973, in putrequest

    self._output(request.encode('ascii'))

UnicodeEncodeError: 'ascii' codec can't encode characters in position 15-16: ordinal not in range(128)

Process finished with exit code 1

　　果然不行！！！

（2）测试2：中文单独处理

代码示例：

import urllib.request

import urllib.parse

url = "http://zzk.cnblogs.com/s?w=python"+ urllib.parse.quote("爬虫")+"&t=b"

resp = urllib.request.urlopen(url)

print(resp.read().decode('utf-8'))

运行结果：

运行结果

结果显示：对url中的中文进行单独处理，url对应内容可以正常抓取了

------@_@! 又有一个新的问题-----------------------------------------------------------

问题：如果把url的中英文一起进行处理呢？还能成功抓取吗？

----------------------------------------------------------------------------------------

（3）于是，测试3出现了！测试3：url中，中英文一起进行处理

代码示例：

#python3.4

import urllib.request

import urllib.parse

url = urllib.parse.quote("http://zzk.cnblogs.com/s?w=python爬虫&t=b")

resp = urllib.request.urlopen(url)

print(resp.read().decode('utf-8'))

运行结果：

C:\Python34\python.exe E:/pythone_workspace/mydemo/spider/demo.py

Traceback (most recent call last):

  File "E:/pythone_workspace/mydemo/spider/demo.py", line 21, in <module>

    resp = urllib.request.urlopen(url)

  File "C:\Python34\lib\urllib\request.py", line 161, in urlopen

    return opener.open(url, data, timeout)

  File "C:\Python34\lib\urllib\request.py", line 448, in open

    req = Request(fullurl, data)

  File "C:\Python34\lib\urllib\request.py", line 266, in __init__

    self.full_url = url

  File "C:\Python34\lib\urllib\request.py", line 292, in full_url

    self._parse()

  File "C:\Python34\lib\urllib\request.py", line 321, in _parse

    raise ValueError("unknown url type: %r" % self.full_url)

ValueError: unknown url type: 'http%3A//zzk.cnblogs.com/s%3Fw%3Dpython%E7%88%AC%E8%99%AB%26t%3Db'

Process finished with exit code 1

结果显示：ValueError！无法成功抓取网页！

结合测试1、2、3，可得到下面结果：

（1）在python3.4中，如果url中包含中文，可以用 urllib.parse.quote("爬虫") 进行处理。

（2）url中的中文需要单独处理，不能中英文一起处理。

Tips：如果想了解一个函数的参数传值

#python3.4

import urllib.request

help(urllib.request.urlopen)

运行上面代码，控制台输出

C:\Python34\python.exe E:/pythone_workspace/mydemo/spider/demo.py

Help on function urlopen in module urllib.request:

urlopen(url, data=None, timeout=<object object at 0x00A50490>, *, cafile=None, capath=None, cadefault=False, context=None)

Process finished with exit code 0

urllib库初体验以及中文编码问题的探讨的更多相关文章

python--爬虫入门（七）urllib库初体验以及中文编码问题的探讨
python系列均基于python3.4环境 ---------@_@? --------------------------------------------------------------- ...
Bower管理依赖库初体验
比如一开始我用了jquery-1.10.2.min.js,后来要用bootstrap,但bootstrap依赖的确实2.0.3版本的jquery,那又要下载一个去替换原来的,这样的事情发生多了就会觉得 ...
Highcharts.js －纯javasctipt图表库初体验
一.highcharts简介以及引入 highcharts作为免费提供给个人学习.个人网站和非商业用途使用的前端图表演示插件的确使用起来十分方便和轻便.在我最近完成一个需求的时候用到了它, 它的兼容性 ...
Java高级特性1_流库_初体验
Java高级特性流库_初体验面对结果编程在编程里, 有两种编程方式, 一种是面对过程编程, 一种是面对结果编程. 两者区别如下面向过程编程面向过程编程需要编程程序让程序依次执行得到自己想要的结 ...
Xamarin.iOS开发初体验
aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAAAKwAAAA+CAIAAAA5/WfHAAAJrklEQVR4nO2c/VdTRxrH+wfdU84pW0
【Knockout.js 学习体验之旅】（1）ko初体验
前言什么,你现在还在看knockout.js?这货都已经落后主流一千年了!赶紧去学Angular.React啊,再不赶紧的话,他们也要变out了哦.身旁的90后小伙伴,嘴里还塞着山东的狗不理大蒜包, ...
PetaPoco初体验（转）
PetaPoco初体验(转) PetaPoco初体验(转) 大部分转自: http://landyer.com/archives/138 PetaPoco C#微型ORM框架,基本无需配置,仅由单个c ...
python窗体——pyqt初体验
连续两周留作业要写ftp的作业,从第一周就想实现一个窗体版本的,但是时间实在太短,qt零基础选手表示压力很大,幸好又延长了一周时间,所以也就有了今天这篇文章...只是为了介绍一些速成的方法,还有初学者 ...
SignalR初体验
简介 ASP .NET SignalR[1] 是一个ASP .NET 下的类库,可以在ASP .NET 的Web项目中实现实时通信.什么是实时通信的Web呢?就是让客户端(Web页面)和服务器端可以 ...

随机推荐

【特别推荐】8个富有创意的jQuery/CSS3插件
现在的互联网上什么都有,但是真正好的创意却非常稀缺,包括WEB界面也是如此,今天我们要特别推荐8个富有创意的jQuery/CSS3插件,也许这几个插件能让你的WEB界面更加富有创意和人性化. 1.jQ ...
C用函数指针模拟重载 C++重载
C中为什么不支持重载,即同一作用域内不允许出现同名函数? 我们都知道重载是c++面向对象的特性.c语言中是不存在的.所谓重载简单来说就是一个函数名可以实现不同的功能,要么输入参数不同或者参数个数不同, ...
C# barcode生成代码
protected void Page_Load(object sender, EventArgs e) { string code = Request.Params["code" ...
如何在终端实时展现git分支
在微博上看到ghosTM55在终端可以实时展现出当前运行的分支,觉得很奇特,于是google了一把.这里面存在两个内容,第一个bash,第二个是git bash基础: 了解到linux的shell存在 ...
XCActionBar 「Xcode 中的 Alfred」
下载地址:https://github.com/pdcgomes/XCActionBar 基本命令: (1)「command+shift+8」或者双击「command」键可以打开「动作输入框窗口」 ( ...
iOS开发-pod install 出错 The dependency `AFNetworking (~> 2.6.0)` is not used in any concrete target.
低版本的cocoapods的Podfile文件pod install可以正常运行 platform :ios, '8.0' pod 'AFNetworking' 高版本的cocoapods的Podfi ...
git merge之squash
看CM源码时,发现历史记录里有很多squash,于是google了解了一下. Git相对于CVS和SVN的一大好处就是merge非常方便,只要指出branch的名字就好了,如: 1 2 3 4 5 $ ...
十六、【适合中小企业的.Net轻量级开源框架】EnterpriseFrameWork框架核心类库之单点登录SSO
回<[开源]EnterpriseFrameWork框架系列文章索引> EFW框架源代码下载:http://pan.baidu.com/s/1qWJjo3U 单点登录(Single Sign ...
Eclipse:Cannot complete the install because of a conflicting dependency.问题解决
今天尝试在线更新ADT(22到23)的时候,遇到了这么个问题,从错误提示中初步看起来是存在引用的冲突: 估计大家在把22升级到23的时候都会遇上这个问题,新旧版冲突,感觉像是ADT自己的bug. 其实 ...
Android View绘制过程
Android的View绘制是从根节点(Activity是DecorView)开始,他是一个自上而下的过程.View的绘制经历三个过程:Measure.Layout.Draw.基本流程如下图: per ...

urllib库初体验以及中文编码问题的探讨

urllib库初体验以及中文编码问题的探讨的更多相关文章

随机推荐

热门专题