python库-urllib

　　urllib库提供了一系列操作url的功能，是python处理爬虫的入门级工具，网上的学习资料也很多。我做爬虫是一开始就用了Scrapy框架，并不是一步步从urllib开始的，反而是在后来解决一些小问题的时候用到了urllib库，感觉用起来很简洁也很实用，下面是我最近的一些应用总结。

1、urllib和urllib2

　　在python2.x的版本中有urllib和urllib2两个库，为什么这样我也没有好好去调研。两者能处理的问题有些相交，更多的是不同，在我的应用场景中，一个最重要的区别就是通过urllib2的方法可以修改header信息，而urllib不支持，后边的例子可以看到。

　　在python3的版本中，已经没有urllib2了，版本2中的urllib和urllib2合并在了一起，urllib自然也就支持修改头部信息

　　下面这两段代码是python2和python3的使用情况对比　　

 import urllib2

 req=urllib2.Request('https://www.python.org/')

 req.add_header('Range','bytes=0-20')

 res=urllib2.urlopen(req)

 data=res.read().decode('utf-8')

 print data

 python3：

 from urllib import request

 req=request.Request("https://www.python.org/") 
 req.add_header('Range','bytes=0-20') 
 res=request.urlopen(req)  res.read().decode('utf-8')

2、应用urllib爬取页面信息的完整小案例（python2）

　　我理解的整个爬虫的过程就是首先下载网页，然后对网页进行解析提取需要的数据，最后数据入库或者是文件等等。上面的代码已经将网页下载下来了，只不过由于修改了Range信息，所以只下载了网页的一部分。

　　下面的例子就是如何解析网页，我之前关于Scrapy的博客用到了Xpath的方式，下面这个例子是用的正则，其实解析网页就没有urllib什么事了...

　　豆瓣电影中排名前170名电影的得分之和：我用的urllib库，用urllib2也是可以的

import urllib

import re

ll=[]

for i in range(7):

     url='http://movie.douban.com/top250?start'+str(i*25)

     req=urllib.urlopen(url)

     page=req.read()

     reg='<span class="rating_num" property="v:average">([0-9]+.[0-9]+)</span>'

     regc=re.compile(reg)

     res=regc.findall(page)

     ll.extend(res)

sum=0

for i in range(170):

     sum+=float(ll[i])

print sum

3、应用urllib2发送get和post请求（python2）

　get和post最简单的理解就是，get是把请求信息附加到url里，而post则是通过表单

（1）查看请求参数——看url，可以从网址栏看，也可以通过开发者工具看

　　或者从，参数列表看：

（2）get方式----把参数附加到url即可

 import urllib2

 url='http://www.douban.com/search?source=suggest&q=123'

 req=urllib2.Request(url)

（3）post方式

 import urllib

 import urllib2

 url="http://www.douban.com/search"

 data={'source':'suggest','q':''}

 data=urllib.urlencode(data)  # 编码成url的格式

 req=urllib2.Request(url=url,data=data)

4、爬虫真的很好玩~~

　　最后再说点有意思的，本人也是有喜欢的小明星哒，网上那么多的美图下也下不过来，肿么办呢？写个爬虫吧哈哈~前几天逛贴吧看美图突发奇想写个小爬虫，追星学习两不误呢~　　

import re

import urllib

def getHtml(url):

    page = urllib.urlopen(url)

    html = page.read()

    return html

def getImg(html):

    reg = r'src="(.+?\.jpg)" pic_ext'

    imgre = re.compile(reg)

    imglist = imgre.findall(html)

    x = 0

    for imgurl in imglist:

        urllib.urlretrieve(imgurl,'%s.jpg' % x)

        x = x + 1        

html = getHtml("http://tieba.baidu.com/p/..........?pn=1") #改一下参数

getImg(html)

python库-urllib的更多相关文章

python爬虫 - Urllib库及cookie的使用
http://blog.csdn.net/pipisorry/article/details/47905781 lz提示一点,python3中urllib包括了py2中的urllib+urllib2. ...
Python爬虫Urllib库的高级用法
Python爬虫Urllib库的高级用法设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Head ...
Python爬虫Urllib库的基本使用
Python爬虫Urllib库的基本使用深入理解urllib.urllib2及requests 请访问: http://www.mamicode.com/info-detail-1224080.h ...
Python爬虫--Urllib库
Urllib库 Urllib是python内置的HTTP请求库,包括以下模块:urllib.request (请求模块).urllib.error( 异常处理模块).urllib.parse (url ...
python之urllib库
urllib库 urllib库是Python中一个最基本的网络请求库.可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据. urlopen函数: 在Python3的urlli ...
python 之 Urllib库的基本使用
目录 python 之 Urllib库的基本使用官方文档什么是Urllib urlopen url参数的使用 data参数的使用 timeout参数的使用响应响应类型.状态码.响应头 requ ...
Python使用urllib,urllib3,requests库+beautifulsoup爬取网页
Python使用urllib/urllib3/requests库+beautifulsoup爬取网页 urllib urllib3 requests 笔者在爬取时遇到的问题 1.结果不全 2.'抓取失 ...
python中urllib, urllib2,urllib3, httplib,httplib2, request的区别
permike原文python中urllib, urllib2,urllib3, httplib,httplib2, request的区别若只使用python3.X, 下面可以不看了, 记住有个ur ...
python:利用urllib查找计算机二级准考证号
aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAAAaYAAAEACAIAAAB3VkWnAAAgAElEQVR4nOydZ3gUR9bv+WhExhHnDH

随机推荐

【刷题】HDU 4405 Aeroplane chess
Problem Description Hzz loves aeroplane chess very much. The chess map contains N+1 grids labeled fr ...
[CF1083C]Max Mex
题目大意:有一棵$n(n\leqslant2\times10^5)$个点的树,每个点有点权,所有的点权构成了$0\sim n-1$的排列.$q(q\leqslant2\times10^5)$次操作,操 ...
关于PDO取得结果集的数据类型为string的问题
很久没写些什么了, 正好今天工作中遇到了以前在意过的问题. 之前曾注意到过,php从数据库中取得的结果集后,其中的字段全都会变成string类型.今儿通过ajax调取数据, 有一个type字段是int ...
解决requests获取源代码时中文乱码问题
用requests获取源代码时,如果是中文网页,就可能会出现乱码,下面我以中关村的网站为例: import requests url = 'http://desk.zol.com.cn/meinv/' ...
Navicat新建查询快捷键
在Navicat中,我们选中一个表,双击打开,这是如果要新建查询这个表的sql语句,可以直接用快捷键 ctrl+q 会自动打开查询窗口,并直接写好 sql:select * from (当前打开的表 ...
Application Error - The connection to the server was unsuccessful. (file:///android_asset/www/index.html)
问题描述: PhoneGap+Sencha Touch开发的应用,打包后的APP或者调试期间,在启动的时候提示如下信息: Application Error - The connection to t ...
Codeforces Round #341 (Div. 2)B
B. Wet Shark and Bishops time limit per test 2 seconds memory limit per test 256 megabytes input sta ...
URAL - 1627：Join (生成树计数)
Join 题目链接:https://vjudge.net/problem/URAL-1627 Description: Businessman Petya recently bought a new ...
OpenCV学习笔记（01）我的第一个OpenCV程序（环境配置）
昨天刚刚考完编译原理,私心想着可以做一些与考试无关的东西了.一直想做和图像处理相关的东西,趁这段时间有空学习一下OpenCV,搭建环境真是一件麻烦的事情,搞了近三个小时终于OK了.先来张图: 大致描述 ...
dubbo在项目中的应用
关于dubbo的使用,我们举个简单例子: 存在2个系统,A系统和B系统,A系统调用B系统的接口获取数据,用于查询用户列表. 在上一篇博文介绍了dubbo的创建,zookeeper的创建完成后,我们可以 ...

python库-urllib

python库-urllib的更多相关文章

随机推荐

热门专题