Python爬虫9-request包介绍及应用

GitHub代码练习地址：1.两种简单get请求方法：https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac13_requests1.py
　　　　　　　　　　 2.带请求头与参数的get请求：https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac14_requests2.py



Requests-献给人类
　　
　　是urllib模块的完美替换，二者功能基本相同
　　HTTP for Humans，更简洁更友好
　　继承了urllib的所有特征
　　底层使用的是urllib3
　　开源地址： https://github.com/requests/requests
　　中文文档： http://docs.python-requests.org/zh_CN/latest/index.html   
　　安装： conda install requests
　
一、两种get请求方法：
    　　requests.get(url)
    　　requests.request("get", url)
    　　可以带有headers和parmas参数来请求

二、requests下使用proxy代理

       proxies = {
       "http":"address of proxy",
       "https": "address of proxy"
       }

       rsp = requests.request("get", "http:xxxxxx", proxies=proxies)
   代理有可能报错，如果使用人数多，考虑安全问题，可能会被强行关闭

用户验证
    代理验证
       可能需要使用HTTP basic Auth， 可以这样
       格式为  用户名:密码@代理地址：端口地址
       proxy = { "http": "china:123456@192.168.1.123：4444"}
       rsp = requests.get("http://baidu.com", proxies=proxy)
web客户端验证
    如果遇到web客户端验证，需要添加auth=（用户名，密码）
       autu=("test1", "123456")#授权信息
       rsp = requests.get("http://www.baidu.com", auth=auth)

三、requests下的cookie与session以及ssl证书相关问题

cookie
    requests可以自动处理cookie信息
         rsp = requests.get("http://xxxxxxxxxxx")
         如果对方服务器给传送过来cookie信息，则可以通过反馈的cookie属性得到
         返回一个cookiejar实例
         cookiejar = rsp.cookies   

         可以讲cookiejar转换成字典
         cookiedict = requests.utils.dict_from_cookiejar(cookiejar)         

session
    跟服务器端session不是一个东东
    模拟一次会话，从客户端浏览器链接服务器开始，到客户端浏览器断开
    能让我们跨请求时保持某些参数，比如在同一个session实例发出的 所有请求之间保持cookie

          创建session对象，可以保持cookie值
          ss = requests.session()

          headers = {"User-Agetn":"xxxxxxxxxxxxxxxxxx"}

          data = {"name":"xxxxxxxxxxx"}

          此时，由创建的session管理请求，负责发出请求，
          ss.post("http://www.baidu.com", data=data, headers=headers)

          rsp = ss.get("xxxxxxxxxxxx")

https请求验证ssl证书
    参数verify负责表示是否需要验证ssL证书，默认是True
    如果不需要验证ssl证书，则设置成False表示关闭

    rsp = requests.get("https://www.baidu.com", verify=False)
    如果用verify=True访问某些证书有问题的网站会报错。

Python爬虫9-request包介绍及应用的更多相关文章

Python爬虫教程-01-爬虫介绍
Spider-01-爬虫介绍 Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求爬虫准备工作参考资料精通Python爬虫框架Scrap ...
python爬虫之urllib库介绍
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
python爬虫——论抓包的正确姿势和学好Javascript的重要性（1）
没事想爬下数据,就入了scrapy坑,跟着https://zhuanlan.zhihu.com/data-factory这篇教程走,中间被小数量的网站坑过,不过还是写出了爬虫~~ 切糕王子:毫无防御, ...
python爬虫之requests库介绍(二)
一.requests基于cookie操作引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们 ...
Python爬虫之requests库介绍(一)
一:Requests: 让 HTTP 服务人类虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 ...
python爬虫之protobuf协议介绍
前言在你学习爬虫的知识过程中是否遇到下面的类型.如果有兴趣学习一下或者了解相关知识的,且不嫌在下才疏学浅,可以参考一下.欢迎各位网友的指正. 首先叙述一下问题的会出现的式样. 你可能会在请求参数中看 ...
python爬虫之requests模块介绍
介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #注意:requests库发送请求将网页内容下 ...
python爬虫之scrapy框架介绍
一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等) ...
python爬虫之request and BeautifulSoup
1.爬虫的本质是什么? 模仿浏览器的行为,爬取网页信息. 2.requests 1.get请求无参数实例 import requests ret = requests.get('https://gi ...
Python 爬虫之request+beautifulsoup+mysql
一.什么是爬虫?它是指向网站发起请求,获取资源后分析并提取有用数据的程序:爬虫的步骤: 1.发起请求使用http库向目标站点发起请求,即发送一个RequestRequest包含:请求头.请求体等 2. ...

随机推荐

YII框架CGridView sql有条件分页实现
$SQL="SELECT * FROM {{user}} WHERE `typeff`=2 order by create_time desc"; $SQL_count=" ...
Eclipse报错Resource '/.org.eclipse.jdt.core.external.folders/.link5' already exists.
Eclipse查看源码出现source not found,重新Build Path选择jdk的jar包时,出现Resource '/.org.eclipse.jdt.core.external.fo ...
windows7 dos修改mysql root密码
第一步:打开mysql 安装路径选择bin文件同时按下Shift+鼠标右键点击"在此处打开命令" 第二步:输入mysql -u root -p 按回车键会提示输入密码 ...
index_init_oprions.go
{ options.DocCacheSize = defaultDocCacheSize } }
privoxy自动请求转发到多个网络
有些时候我们需要通过不同的代理访问不同资源,比如某些ip或域名走本地网络,某些ip或域名走不可描述的代理等.当然这只是举个栗子! 我要解决的问题是:我的内网机器没有internet访问权限,但是我的应 ...
SQL数据库的一些操作
--以 MySQL为例 //登陆 mysql -u root -p //创建一个名为test_lib的数据库 CREATE DATABASE test_lib //删除一个名为test_lib的数据库 ...
The following untracked working tree files would be overwritten by merge
git pull的时候遇到这样的问题: The following untracked working tree files would be overwritten by merge balabal ...
wGenerator如何编写模板
编写模板大致分为4个步骤: 确定开发语言与数据库类型分析表数据类型与语言的类型对应分析代码中哪些可以规整为模板编写与测试模板我们对照流程图看的话会更加清晰: 1.如何分析表数据与开发语言的类型 ...
MIP 组件库升级公告
背景为了方便广大开发者们更好地使用组件,现对 MIP 组件库统一进行升级,升级后将分为通用组件和自定义组件两类,方便开发. 通用组件,即考虑了组件通用性方便所有开发者参考使用的组件,将存放于 mip ...
re模块的方法总结
re模块的方法总结一,查找 1:match 匹配string 开头,成功返回Match object, 失败返回None,只匹配一个. 示例: s="abc221kelvin4774&qu ...

Python爬虫9-request包介绍及应用

Python爬虫9-request包介绍及应用的更多相关文章

随机推荐

热门专题