python网络爬虫（4）结构与基本概念

基本模型

请求与响应

import urllib.request as urllib2

request=urllib2.Request('http://www.zhihu.com')

response=urllib2.urlopen(request)

html=response.read()

print(html)

Cookie处理

呵呵

import urllib.request as urllib2

import  http.cookiejar as cookielib

cookie = cookielib.CookieJar()

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))

response = opener.open('http://www.zhihu.com')

for item in cookie:

    print(item.name+':'+item.value)

以下自定义Cookie内容？？？？

opener = urllib2.build_opener()

opener.addheaders.append( ( 'Cookie', 'email=' + "xxxxxxx@163.com" ) )

req = urllib2.Request( "http://www.zhihu.com/" )

response = opener.open(req)

print(response.headers)

retdata = response.read()

Timeout处理

设置局部的Timeout

超时会抛出异常

import urllib.request as urllib2

import  http.cookiejar as cookielib

request=urllib2.Request('http://www.zhihu.com')

response = urllib2.urlopen(request,timeout=0.01)

html=response.read()
print(html)

修改全局的Timeout

import urllib2

import socket

socket.setdefaulttimeout(10) # 10 秒钟后超时

urllib2.socket.setdefaulttimeout(10) # 另一种方式

返回响应代码

正常200，网页丢失404

import urllib.request as urllib2

import  http.cookiejar as cookielib

try:

    response = urllib2.urlopen('http://www.samoy.cn/seoganhuo/1')

    print(response)

    print(response.getcode())

except urllib2.HTTPError as e:

    if hasattr(e, 'code'):

        print('Error code:',e.code)

检查重定向问题

当访问的网址返回后仍然是该网址，则未发生重定向。

import urllib.request as urllib2

import  http.cookiejar as cookielib

response = urllib2.urlopen('http://www.baidu.cn')

isRedirected = response.geturl() == 'http://www.baidu.cn'

print(isRedirected)

另外一种使用类进行的重定向检查

import urllib.request as urllib2

import  http.cookiejar as cookielib

class RedirectHandler(urllib2.HTTPRedirectHandler):

    def http_error_301(self, req, fp, code, msg, headers):

        pass

    def http_error_302(self, req, fp, code, msg, headers):

        result = urllib2.HTTPRedirectHandler.http_error_301(self, req, fp, code, msg, headers)

        result.status = code

        result.newurl = result.geturl()

        return result

opener = urllib2.build_opener(RedirectHandler)

result=opener.open('http://www.baidu.cn')

print(result.newurl)

print(result.status)

代理设置

使用install_opener更新全局的Proxy。

import urllib.request as urllib2

import  http.cookiejar as cookielib

proxy = urllib2.ProxyHandler({'http': '127.0.0.1:8087'})

opener = urllib2.build_opener(proxy)

urllib2.install_opener(opener)

response = urllib2.urlopen('http://www.zhihu.com/')

print(response.read())

更新局部

import urllib.request as urllib2

import  http.cookiejar as cookielib

proxy = urllib2.ProxyHandler({'http': '127.0.0.1:8087'})

opener = urllib2.build_opener(proxy)

response = opener.open("http://www.zhihu.com/")

print(response.read())

使用requests实现http请求

参见：包括get post 响应，编码，请求头处理，超时判定

Cookie处理

获取

import requests

user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

headers={'User-Agent':user_agent}

r = requests.get('http://www.baidu.com',headers=headers)

#遍历出所有的cookie字段的值

for cookie in r.cookies.keys():

    print(cookie+':'+r.cookies.get(cookie))

发送自定义

import requests

user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

headers={'User-Agent':user_agent}

cookies = dict(name='qiye',age='10')

r = requests.get('http://www.baidu.com',headers=headers,cookies=cookies)

print (r.text)

带账号密码发送cookie用于登录

import requests

loginUrl = 'http://www.xxxxxxx.com/login'

s = requests.Session()

#首先访问登录界面，作为游客，服务器会先分配一个cookie

r = s.get(loginUrl,allow_redirects=True)

datas={'name':'qiye','passwd':'qiye'}

#向登录链接发送post请求，验证成功，游客权限转为会员权限

r = s.post(loginUrl, data=datas,allow_redirects= True)

print(r.text)

重定向检验

import requests

r = requests.get('http://www.baidu.cn')

print(r.url)

print(r.status_code)

print(r.history)

代理设置

举例

import requests

proxies = {

  "http": "http://10.10.1.10:3128",

  "https": "http://10.10.1.10:1080",

}

requests.get("https://www.baidu.com", proxies=proxies)

或使用https://doman@host方式设置proxies，进行代理

python网络爬虫（4）结构与基本概念的更多相关文章

零基础如何快速学习好Python网络爬虫？
Python网络爬虫上手很快,能够尽早入门,可是想精通确实是需求些时间,需求达到爬虫工程师的级别更是需求煞费苦心了,接下来共享的学习道路是针对小白或许学习Python网络爬虫不久的同伴们. 学习网络爬 ...
Python网络爬虫与信息提取笔记
直接复制粘贴笔记发现有问题文档下载地址//download.csdn.net/download/hide_on_rush/12266493 掌握定向网络数据爬取和网页解析的基本能力常用的 Pytho ...
Python网络爬虫
http://blog.csdn.net/pi9nc/article/details/9734437 一.网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛 ...
如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...
《精通python网络爬虫》笔记
<精通python网络爬虫>韦玮著目录结构第一章什么是网络爬虫第二章爬虫技能概览第三章爬虫实现原理与实现技术第四章 Urllib库与URLError异常处理第五章正则 ...
Python网络爬虫学习总结
1.检查robots.txt 让爬虫了解爬取该网站时存在哪些限制. 最小化爬虫被封禁的可能,而且还能发现和网站结构相关的线索. 2.检查网站地图(robots.txt文件中发现的Sitemap文件) ...
Python 网络爬虫 001 (科普) 网络爬虫简介
Python 网络爬虫 001 (科普) 网络爬虫简介 1. 网络爬虫是干什么的我举几个生活中的例子: 例子一: 我平时会将学到的知识和积累的经验写成博客发送到CSDN博客网站上,那么对于我 ...
Python网络爬虫与信息提取
1.Requests库入门 Requests安装用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...
Python网络爬虫实战(一)快速入门
本系列从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬,加密的网站,还有爬虫拿不到数据,以及登录验证等问题,会伴随大量网站的爬虫实战来进行. 我们编写网络爬虫最主要 ...
第3次作业-MOOC学习笔记：Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 4.提供图片或网站显示的学习进 ...

随机推荐

[POJ1151][HDU1542]Atlantis（线段树，扫描线）
英文题面,我就只放个传送门了. Solution 题意是算矩形面积并,这是扫描线算法能解决的经典问题. 算法的大致思想是,把每一个矩形拆成上边和下边(以下称作扫描线),每条扫描线有四个参数l,r,h ...
LeetCode---Backtracking && DP
**322. Coin Change 思路:动态规划,构造一个数组,存入当前index最少需要多少个coin public int coinChange(int[] coins, int amount ...
使用Grizzy+Jersey搭建一个RESTful框架（）报错Exception in thread "main" java.lang.AbstractMethodError: javax.ws.rs.core.UriBuilder.uri(Ljava/lang/String;)Ljavax/ws/rs/core/UriBuilder;
报错的类涉及UriBuilder,我搜索类发现, 这个类存在于两个包中,我在baidu的时候,也有人提到是jar包冲突,我就删除了这个依赖,问题解决了. 环境搭建过程请见地址https://blog ...
成功解决gyp verb ensuring that file exists: C:\Python27\python.exe gyp ERR! configure error gyp ERR! sta
解决问题 gyp verb ensuring that file exists: C:\Python27\python.exegyp ERR! configure errorgyp ERR! stac ...
java 百度地图判断两点距离2
package baiduApi; public class BaiDuMap { static double DEF_PI = 3.14159265359; // PI static double ...
FPGA实战操作(2) -- PCIe总线（例程设计分析）
1.框架总览平台:vivado 2016.4 FPGA:A7 在实际应用中,我们几乎不可能自己去编写接口协议,所以在IP核的例程上进行修改来适用于项目是个不错的选择. 通过vivado 中有关PCI ...
js evenloop
一.宏任务 vs 微任务 1.macrotask setTimeOut . setInterval . setImmediate . I/O . 各种callback.UI渲染等优先级: 主代码块 ...
Orcal nvl函数
NVL(E1, E2)的功能为:如果E1为NULL,则函数返回E2,否则返回E1本身.但此函数有一定局限,所以就有了NVL2函数. 拓展:NVL2函数:Oracle/PLSQL中的一个函数,Oracl ...
如何实现一个串行promise
异步执行任务A.B.C,...... 1.使用数组的reduce方法,reduce里有四个参数,pre,next,index,arr, 2.如果then方法里返回的是一个promise对象,那么执行下 ...
react-native命令初始化项目后可借助webstrom快速运行与调试项目
利用webstorm工具打开RN项目,点击然后添加然后进行配置最后,点击apply ,OK完成后期运行项目直接点击:

python网络爬虫（4）结构与基本概念

基本模型

Cookie处理

Timeout处理

设置局部的Timeout

修改全局的Timeout

返回响应代码

检查重定向问题

代理设置

使用requests实现http请求

Cookie处理

获取

发送自定义

带账号密码发送cookie用于登录

重定向检验

代理设置

python网络爬虫（4）结构与基本概念的更多相关文章

随机推荐

热门专题