爬虫学习（九）——登录获取cookie爬取

import urllib.request
import urllib.parse
import http.cookiejar

# http.cookiejar 该包是专门对网页的cookie只进行获取的
# cookiejar是专门让代码保存cookie值
# 创建一个cookiejar对象
cookiejar = http.cookiejar.CookieJar()
# 根据cookiejar创建一个管理器对象
handler = urllib.request.HTTPCookieProcessor(cookiejar)
# 在使用handler创建一个opener对象对服务器发送请求
opener = urllib.request.build_opener(handler)

url = "http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=2019131959912"
headers = {
    "User-Agent":" Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"
}
data = {
    "email":"15904923018",
    "icode":"",
    "origURL":"http://www.renren.com/home",
    "domain":"renren.com",
    "key_id":"1",
    "captcha_type":"web_login",
    "password":"3912395285b1bc3a702d4b786c6ca78f31e3eb02581632ff953f3cde5d4a0e4c",
    "rkey":"72b87c9a06689d433fac19cc32918a24",
    "f":"https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DG3uWgGKuXm54K9E_sD5z1fU3YkI4h1UVckfBqdYMWk_%26wd%3D%26eqid%3D979d3c7c0004e681000000025c63fb79",
}
data = urllib.parse.urlencode(data).encode("utf8")
request = urllib.request.Request(url,headers=headers)
# response = urllib.request.urlopen(request,data=data)

response = opener.open(request,data=data)
#显示的结果是一个含登录信息的网页地址
print(response.read().decode("utf8"))

# 显示结果：
# {"code":true,"homeUrl":"http://www.renren.com/home"}

# 获取登录时的cookie值
# 登录后访问其他含登录信息的网页时，必须带着cookie

get_url = "http://www.renren.com/969727800/profile"
request = urllib.request.Request(get_url,headers=headers)

# opener对象保存了登录时的cookie值
# 再次更换请求对象使用opener进行请求时，cookie还是存在的，能够保存登录信息
response1 = opener.open(request)
with open("renren1.html","wb")as tf:
    tf.write(response1.read())

爬虫学习（九）——登录获取cookie爬取的更多相关文章

Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)（下）
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用co ...
Python爬虫教程-12-爬虫使用cookie爬取登录后的页面(人人网)（上）
Python爬虫教程-12-爬虫使用cookie(上) 爬虫关于cookie和session,由于http协议无记忆性,比如说登录淘宝网站的浏览记录,下次打开是不能直接记忆下来的,后来就有了cooki ...
python爬虫学习之使用BeautifulSoup库爬取开奖网站信息-模块化
实例需求:运用python语言爬取http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html这个开奖网站所有的信息,并且保存为txt文件和excel文件. 实 ...
Java爬虫学习（1）之爬取新浪微博博文
本次学习采用了webmagic框架,完成的是一个简单的小demo package com.mieba.spiader; import us.codecraft.webmagic.Page; impor ...
Python爬虫学习——使用selenium和phantomjs爬取js动态加载的网页
1.安装selenium pip install selenium Collecting selenium Downloading selenium-3.4.1-py2.py3-none-any.wh ...
Python登录豆瓣并爬取影评
上一篇我们讲过Cookie相关的知识,了解到Cookie是为了交互式web而诞生的,它主要用于以下三个方面: 会话状态管理(如用户登录状态.购物车.游戏分数或其它需要记录的信息) 个性化设置(如用户自 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
Python爬虫入门教程 5-100 27270图片爬取
27270图片----获取待爬取页面今天继续爬取一个网站,http://www.27270.com/ent/meinvtupian/ 这个网站具备反爬,so我们下载的代码有些地方处理的也不是很到位, ...

随机推荐

6、python数据类型之元组（dict）
字典字典的每个元素就是一个键值对,格式如下key:value{key1:value1,key2:value2,......} 1.创建 dict_eg = { "name":&qu ...
BZOJ 1053 [HAOI2007]反素数ant 神奇的约数
本蒟蒻终于开始接触数学了...之前写的都忘了...忽然想起来某神犇在几个月前就切了FWT了... 给出三个结论: 1.1-N中的反素数是1-N中约数最多但是最小的数 2.1-N中的所有数的质因子种类不 ...
ElasticSearch 全文检索— ElasticSearch 核心概念
ElasticSearch核心概念-Cluster 1)代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的.es的一个概念就是去中心化,字 ...
Redis中String类型的Value最大可以容纳数据长度
项目中使用redis存储,key-value方式,在Redis中字符串类型的Value最多可以容纳的数据长度是512M 官方信息: A String value can be at max 512 M ...
使用Maven运行Java main的3种方式
使用Maven运行Java main的3种方式原文 http://blog.csdn.net/qbg19881206/article/details/19850857 主题 Maven maven ...
19.CentOS7下PostgreSQL安装过程
CentOS7下PostgreSQL安装过程装包 sudo yum install postgresql-server postgresql-contrib 说明: 这种方式直接明了,其他方法也可以 ...
Sublime Text插件列表
本文由伯乐在线 - 艾凌风翻译,黄利民校稿.英文出处:ipestov.com.欢迎加入翻译组. 本文收录了作者辛苦收集的Sublime Text最佳插件,很全. 最佳的Sublime Text ...
导入maven多模块项目出现的问题
近日导入maven多模块项目出现的问题以及解决过程2017年12月04日 20:43:04 守望dfdfdf 阅读数:815 标签: jdkmavenmaven pom.xml 更多个人分类: 工作 ...
springboot 学习笔记（六）
(六)springboot整合activemq 1.现下载activemq,下载链接:http://activemq.apache.org/download.html,windows系统解压后进入bi ...
1 误删dbf文件造成ORA-01109: 数据库未打开.
1.cmd-sqlplus /nolog-conn system/pwd as sysdba 2.shutdown immediate; 3.startup mount; 4.alter databa ...

爬虫学习（九）——登录获取cookie爬取

爬虫学习（九）——登录获取cookie爬取的更多相关文章

随机推荐

热门专题