Python爬虫学习笔记-1.Urllib库

　　urllib 是python内置的基本库，提供了一系列用于操作URL的功能，我们可以通过它来做一个简单的爬虫。

0X01 基本使用

简单的爬取一个页面：

import urllib2

request = urllib2.Request("http://www.cnblogs.com")

response = urllib2.urlopen(request)

print response.read()

GET方式

import urllib

import urllib2

values ={"id":}

data=urllib.urlencode(values)

url="http://192.168.125.129/config/sql.php"

geturl=url+"?"+data

request =urllib2.Request(url)

response =urllib2.urlopen(request)

print response.read()

POST方式

import urllib

import urllib2

url="http://192.168.125.129/config/sql.php"

values ={"id":}

data=urllib.urlencode(values)

request = urllib2.Request(url,data)

response=urllib2.urlopen(request)

print response.read()

0X02 高级用法

1、设置Headers

　　部分网站做了反爬虫策略，通过上面的程序，可能会获取不到内容，这时候我们可以模拟浏览器的工作，设置一些Headers 的属性。

import urllib

import urllib2

url="http://192.168.125.129/config/sql.php"

values ={"id":}

data=urllib.urlencode(values)

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36'}

request=urllib2.Request(url,data,headers)

response =urllib2.urlopen(request)

print response.read()

常见的headers属性

User-Agent : 浏览器类型，有些服务器或 Proxy 会通过该值来判断是否是浏览器发出的请求
Content-Type : 在使用 REST 接口时，服务器会检查该值，用来确定 HTTP Body 中的内容该怎样解析。
application/xml ：在 XML RPC，如 RESTful/SOAP 调用时使用
application/json ：在 JSON RPC 调用时使用
application/x-www-form-urlencoded ：浏览器提交 Web 表单时使用
在使用服务器提供的 RESTful 或 SOAP 服务时， Content-Type 设置错误会导致服务器拒绝服务

另外，对付防盗链，可以在headers中加入referer。

2、设置Timeout

urllib2.urlopen方法，如果第二个参数data为空那么要特别指定是timeout是多少，写明形参，如果data已经传入，则不必声明。

import urllib

import urllib2

url="http://192.168.125.129/config/sql.php"

response = urllib2.urlopen(url, timeout=)

import urllib

import urllib2

url="http://192.168.125.129/config/sql.php"

values ={"id":}

data=urllib.urlencode(values)

response = urllib2.urlopen(url, data,)

3、异常处理

　　当程序异常时，需要用try-except语句来包围并捕获相应的异常，否则程序将终止。

import urllib

import urllib2

url="http://192.168.125.129/config/sql22.php"

values ={"id":}

data=urllib.urlencode(values)

try:

    request = urllib2.Request(url,data)

    response=urllib2.urlopen(request)

    print response.read()

except urllib2.HTTPError, e:

    print e.code

    print e.reason

except urllib2.URLError, e:

    print e.reason

else:

    print "ok"

这边使用URLError、HTTPError捕获异常，HTTPError是URLError的子类。

4、模拟登陆

　　利用cookie实现模拟登录，使用cookielib模块,代码示例：

import urllib

import urllib2

import cookielib

filename = 'cookie.txt'

#声明一个MozillaCookieJar对象实例来保存cookie，之后写入文件

cookie = cookielib.MozillaCookieJar(filename)

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))

postdata = urllib.urlencode({

            'username':'admin',

            'password':'password'

        })

#登录的URL

loginUrl = 'http://site/login.php'

#模拟登录，并把cookie保存到变量

result = opener.open(loginUrl,postdata)

#保存cookie到cookie.txt中

cookie.save(ignore_discard=True, ignore_expires=True)

#利用cookie请求访问另一个网址，此网址是后台网址

comurl = 'http://site/index.php'

#请求访问后台网址

result = opener.open(comurl)

print result.read()

5、证书不匹配

证书不匹配问题 SSLError(CertificateError("hostname 'xxx.com' doesn't match 'test.xxx.org'"

对于python自带的 urllib库解决办法

import ssl

ssl.match_hostname = lambda cert, hostname: True

Python爬虫学习笔记-1.Urllib库的更多相关文章

Python爬虫学习笔记-2.Requests库
Requests是Python的一个优雅而简单的HTTP库,它比Pyhton内置的urllib库,更加强大. 0X01 基本使用安装 Requests,只要在你的终端中运行这个简单命令即可: pip ...
Python爬虫入门四之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
转 Python爬虫入门四之Urllib库的高级用法
静觅 » Python爬虫入门四之Urllib库的高级用法 1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我 ...
转 Python爬虫入门三之Urllib库的基本使用
静觅 » Python爬虫入门三之Urllib库的基本使用 1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器 ...
python爬虫学习笔记（一）——环境配置（windows系统）
在进行python爬虫学习前,需要进行如下准备工作: python3+pip官方配置 1.Anaconda(推荐,包括python和相关库) [推荐地址:清华镜像] https://mirrors ...
python爬虫学习(1) —— 从urllib说起
0. 前言如果你从来没有接触过爬虫,刚开始的时候可能会有些许吃力因为我不会从头到尾把所有知识点都说一遍,很多文章主要是记录我自己写的一些爬虫所以建议先学习一下cuiqingcai大神的 Pyth ...
python爬虫学习之使用BeautifulSoup库爬取开奖网站信息-模块化
实例需求:运用python语言爬取http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html这个开奖网站所有的信息,并且保存为txt文件和excel文件. 实 ...
Python爬虫学习笔记(三)
Cookies: 以抓取https://www.yaozh.com/为例 Test1(不使用cookies): 代码: import urllib.request # 1.添加URL url = &q ...
Python爬虫学习笔记（一）
1.urllib2简介 urllib2的是爬取URL(统一资源定位器)的Python模块.它提供了一个非常简单的接口,使用urlopen函数.它能够使用多种不同的协议来爬取URL.它还提供了一个稍微复 ...

随机推荐

Java BEAN与EJB的区别
Java Bean 是可复用的组件,对Java Bean并没有严格的规范,理论上讲,任何一个Java类都可以是一个Bean.但通常情况下,由于Java Bean是被容器所创建(如Tomcat)的,所以 ...
htop VS top
在 Linux 系统中,top 命令用来显示系统中正在运行的进程的实时状态,它显示了一些非常有用的信息,比如 CPU 利用情况.内存消耗情况,以及每个进程情况等.但是,你知道吗?还有另外一个命令行工具 ...
Python中sorted()方法的用法
Python中sorted()方法的用法 2012-12-24 22:01:14| 分类: Python |字号订阅 1.先说一下iterable,中文意思是迭代器. Python的帮助文档中对i ...
Selenium常用操作汇总二——如何得到弹出窗口
在selenium 1.X里面得到弹出窗口是一件比较麻烦的事,特别是新开窗口没有id.name的时候.当时还整理了处理了几种方法,详见:http://seleniumcn.cn/read.php?ti ...
如何进行Java EE性能测试与调优
性能测试的目标性能测试不同于功能测试,不是对与错的检验,而是快与慢的衡量.在进行真正的性能测试之前要先搞清楚目标: 1. 在确定的硬件条件下,可以支持的并发数越大越好,响应时间越快越好.具体需要达到 ...
Batch normalization:accelerating deep network training by reducing internal covariate shift的笔记
说实话,这篇paper看了很久,,到现在对里面的一些东西还不是很好的理解. 下面是我的理解,当同行看到的话,留言交流交流啊!!!!! 这篇文章的中心点:围绕着如何降低 internal covari ...
MySQL 服务（mysqld）crash
场景: 数据从 10.165.98.190 自建MySQL同步至阿里云 MongoDB过程中,mysql服务会崩溃,同步数据失败. 原因分析: 经DBA 分析,10.165.98.1 ...
适合Eclipse Juno的UML插件
今天给Eclipse安装UML插件,试了很多都不兼容,我用的Ecllipe版本是4.2 最后终于找到一个叫做AmatersUML的插件还能用,不过还是不够顺手,比如对泛型支持不够,不能从图形直接跳到相 ...
内存与cpu的关系
CPU是负责运算和处理的,内存是交换数据的.当程序或者操作者对CPU发出指令,这些指令和数据暂存在内存里,在CPU空闲时传送给CPU,CPU处理后把结果输出到输出设备上,输出设备就是显示器,打印机等. ...
小程序的tab切换事件
index.wxml代码 <view class="tab-left" > <view " bindtap="tab">tab ...

Python爬虫学习笔记-1.Urllib库

Python爬虫学习笔记-1.Urllib库的更多相关文章

随机推荐

热门专题