一、cookie&session

cookie：服务器端使用cookie来记录客户端的状态信息

实现流程：

执行登陆操作（获取cookie)
在发起个人主页请求时，需要将cookie携带到该请求中

注意：session对象也可以发送请求，并且会将cookie对象进行自动存储

cookie&session演示

import requests

session = requests.session()

# 1. 发起登陆请求：将cookie获取，且存储到session对象中

login_url = 'https://accounts.douban.com/login'

data = {

    'source':'None',

    'redir':'https://www.douban.com/people/141236419/',

    'form_email':'',

    'form_password':'lshhxr0418',

    'login':'登陆',

}

# 自定义请求头信息

headers =  {

     'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'

}

# 使用session发起post请求

login_response = session.post(url=login_url,data=data,headers=headers)

# 2. 对个人主页发起请求（session），获取响应页面数据

url = 'https://www.douban.com/people/141236419/'

response = session.get(url=url,headers=headers)

page_text = response.text

with open('./douban110.html','w',encoding='utf-8') as fp:

    fp.write(page_text)

二、代理操作

第三方代理本体执行相关的事物。生活：代购、微商、中介
为什么要使用代理
1. 反爬操作。
2. 反反爬手段
分类
1. 正向代理：代替客户端获取数据
2. 反向代理：代理服务器端提供数据
免费代理ip的网站提供商

www.goubanjia.com (建议使用)
快代理
西祠代理

代理演示

import requests

url = 'http://www.baidu.com/s?ie=utf-8&wd=ip'

# 将代理ip封装到字典

# 更换网络ip

proxy = {

    'http':'118.27.20.17:3128'

}

# 自定义请求头信息

headers =  {

     'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'

}

# 更换网络IP

response = requests.get(url=url,proxies=proxy,headers=headers)

with open('./daili.html','w',encoding='utf-8') as fp:

    fp.write(response.text)

爬虫之request模块高级的更多相关文章

03、request 模块高级
requests高级部分代理 cookie 验证码的识别模拟登陆代理代理概念:代理服务器. 作用:接受请求==>请求转发. 代理和爬虫之间的关联: 可以使用请求转发的机制使得目的服务器接 ...
爬虫与request模块
一.爬虫简介 1.介绍网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁. ...
【nodejs】理想论坛帖子下载爬虫1.07 使用request模块后稳定多了
在1.06版本时,访问网页采用的时http.request,但调用次数多以后就问题来了. 寻找别的方案时看到了https://cnodejs.org/topic/53142ef833dbcb076d0 ...
爬虫之urllib包以及request模块和parse模块
urllib简介简介 Python3中将python2.7的urllib和urllib2两个包合并成了一个urllib库 Python3中,urllib库包含有四个模块: urllib.reques ...
爬虫开发.2urllib模块
一.urllib库概念:urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urll ...
python3中urllib库的request模块详解
刚刚接触爬虫,基础的东西得时时回顾才行,这么全面的帖子无论如何也得厚着脸皮转过来啊! 原帖地址:https://www.2cto.com/kf/201801/714859.html 什么是 Urlli ...
asynicio模块以及爬虫应用asynicio模块(高性能爬虫)
一.背景知识爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,只用一个线程且采用串行的方式执行,那只能等待爬取一个结束后才能继续下一个,效率会非常低. 需要强调的是 ...
第三百二十六节，web爬虫，scrapy模块,解决重复ur——自动递归url
第三百二十六节,web爬虫,scrapy模块,解决重复url——自动递归url 一般抓取过的url不重复抓取,那么就需要记录url,判断当前URL如果在记录里说明已经抓取过了,如果不存在说明没抓取过 ...
第三百二十五节，web爬虫，scrapy模块标签选择器下载图片，以及正则匹配标签
第三百二十五节,web爬虫,scrapy模块标签选择器下载图片,以及正则匹配标签标签选择器对象 HtmlXPathSelector()创建标签选择器对象,参数接收response回调的html对象需 ...

随机推荐

greenplum维护
1.用户管理 psql -d sea CREATE DATABASE BI; CREATE USER ubi WITH PASSWORD 'pwdbi' NOSUPERUSER; GRANT ALL ...
Windows C/C++ 内存泄露检测
#pragma once #define _CRTDBG_MAP_ALLOC #include<crtdbg.h> #include<stdlib.h> #include< ...
Mantis查看问题列表的列名修改_"P","#"两列
在使用mantis的时候,点击菜单上的“查看问题”进去,就会罗列出当前的bug列表,可是列表的标题上存在着“P”和“#”的显示,个人觉得这两列在这里完全没有意义,或者说现有的显示使人觉得疑惑,究竟代表 ...
PowerBuilder与嵌入浏览器交互
准备工作1. 新增一个Application应用,新增一个窗口.2. 在窗口中新增一个OLE控件:Microsoft Web Browser,命名为old_1.3. 新增一个TextBox网址输入控件 ...
dedecms 模板文件不存在无法解析文档！问题定位方法！
生成静态的时候,经常会遇到“模板文件不存在,无法解析文档!”的问题.很多朋友试过论坛里很多方法,都是针对某些人可以解决,某些人的问题依旧,为什么呢?其实问题很可能确实是多种多样的,表现结果却是一样, ...
SQL的id奇迹
SELECT id,name FROM test where name is null and id>=26 limit 26,3 这里26和26没关系,不是id额
Codeforces 225E 梅森素数
注:梅森素数,数组表示的是2^n-1的n,指数. #include <stdio.h> #include <math.h> ; ; typedef long long ll; ...
miniMobile(手机)
官网:http://www.web2014.cn/
CSS3 小会
-webkit-perspective:800px; 其子元素获得3D元素支持,这里是设置子元素距离试图的位置:若设为0 则不支持子元素获得3d效果,不支持透视. 常与transform:rota ...
重写viewWillAppear 和 viewWillDisAppear时[super viewWillAppear] 和 [super viewWillDisappear]的调用位置
参考网址:https://stackoverflow.com/questions/3906704/when-should-i-call-super 在写代码的过程中如果重写了viewWillAppea ...

爬虫之request模块高级

一、cookie&session

cookie&session演示

二、代理操作

代理演示

爬虫之request模块高级的更多相关文章

随机推荐

热门专题