python3 爬虫

保存当前cookie到本地

import urllib.request as ur

import http.cookiejar as hc

url='http://www.xxxx.com/admin/'

filename='cookie.txt'

cookie=hc.MozillaCookieJar(filename)

handler=ur.HTTPCookieProcessor(cookie)

opener=ur.build_opener(handler)

req=ur.Request(url)

res=opener.open(req)

cookie.save(ignore_discard=True, ignore_expires=True)

加载本地cookie登录网站（先手工登录网站，通过F12获取cookie信息，修改本地cookie.txt，就可以使用下面代码登录网站了）

import urllib.request as ur

import http.cookiejar as hc

url='http://www.xxxx.com/admin/'

cookie=hc.MozillaCookieJar()

cookie.load('cookie.txt',ignore_discard=True, ignore_expires=True)

handler=ur.HTTPCookieProcessor(cookie)

opener=ur.build_opener(handler)

req=ur.Request(url)

res=opener.open(req)

print(res.read().decode('utf8'))

关于cookie.save和cookie.load的后面两个参数官网说明

ignore_discard: save even cookies set to be discarded.
ignore_expires: save even cookies that have expiredThe file is overwritten if it already exists

已经测试过，参数必须加上，不然运行错误

python3 爬虫的更多相关文章

Python3爬虫系列：理论+实验+爬取妹子图实战
Github: https://github.com/wangy8961/python3-concurrency-pics-02 ,欢迎star 爬虫系列: (1) 理论 Python3爬虫系列01 ...
python3爬虫中文乱码之请求头‘Accept-Encoding’：br 的问题
当用python3做爬虫的时候,一些网站为了防爬虫会设置一些检查机制,这时我们就需要添加请求头,伪装成浏览器正常访问. header的内容在浏览器的开发者工具中便可看到,将这些信息添加到我们的爬虫代码 ...
Python3 爬虫之 Scrapy 核心功能实现（二）
博客地址:http://www.moonxy.com 基于 Python 3.6.2 的 Scrapy 爬虫框架使用,Scrapy 的搭建过程请参照本人的另一篇博客:Python3 爬虫之 Scrap ...
Python3 爬虫之 Scrapy 框架安装配置（一）
博客地址:http://www.moonxy.com 基于 Python 3.6.2 的 Scrapy 爬虫框架使用,Scrapy 的爬虫实现过程请参照本人的另一篇博客:Python3 爬虫之 Scr ...
python3爬虫--反爬虫应对机制
python3爬虫--反爬虫应对机制内容来源于: Python3网络爬虫开发实战: 网络爬虫教程(python2): 前言: 反爬虫更多是一种攻防战,针对网站的反爬虫处理来采取对应的应对机制,一般需 ...
python3爬虫系列19之反爬随机 User-Agent 和 ip代理池的使用
站长资讯平台:python3爬虫系列19之随机User-Agent 和ip代理池的使用我们前面几篇讲了爬虫增速多进程,进程池的用法之类的,爬虫速度加快呢,也会带来一些坏事. 1. 前言比如随着我们爬虫 ...
python3爬虫（4）各种网站视频下载方法
python3爬虫(4)各种网站视频下载方法原创H-KING 最后发布于2019-01-09 11:06:23 阅读数 13608 收藏展开理论上来讲只要是网上(浏览器)能看到图片,音频,视频,都能够 ...
Python3爬虫：（一）爬取拉勾网公司列表
人生苦短,我用Python 爬取原因:了解一下Python工程师在北上广等大中城市的薪资水平与入职前要求. Python3基础知识 requests,pyquery,openpyxl库的使用爬取前的 ...
笔趣看小说Python3爬虫抓取
笔趣看小说Python3爬虫抓取获取HTML信息解析HTML信息整合代码获取HTML信息 # -*- coding:UTF-8 -*- import requests if __name__ ...
Python2和Python3 爬虫转换
由于Python3的不断完善,很多新入Python的小伙伴选择了Python3的阵营,很多人选择了爬虫这一热门话题,但是网络上大部分教程都是Python2 教程,Python3这一块做了些许的改动,对 ...

随机推荐

IIS HTTP 错误 404.17 - Not Found HTTP 错误 404.2 解决方法
出现这种情况的原因通常是因为先安装了Framework,后安装的IIS: 解决方法运行cmd,输入: C:\Windows\Microsoft.NET\Framework\V4.0.30319\as ...
关于jQuery中实现放大镜效果
1.1.1 摘要相信大家都见过或使用过放大镜效果,甚至实现过该效果,它一般应用于放大查看商品图片,一些电商网站(例如:凡客,京东商城,阿里巴巴等)都有类似的图片查看效果. 在接下来的博文中,我们将向 ...
去除phpcms会员登录后头部登陆条的会员名称的括号
phpcms会员登录后显示会员名称是带括号的,现在把他修改成不带括号. 找到函数库libs/functions/global.func.php,修改如下即可: function get_nicknam ...
request.getcontextPath() 详解
request.getcontextPath() 详解文章分类:Java编程 <%=request.getContextPath()%>是为了解决相对路径的问题,可返回站点的根路径. 但 ...
使用配置 API配置注入(Container stand-alone API)
当使用API配置注时,它可以通过成员注入重写默认的注入规则: 使用注入成员(InjectionMember)时,如对属性注入可以用InjectionProperty等,可以通过指定名称来指定使用哪个具 ...
ARM Cortex-M0权威指南高清中文版pdf免费分享下载
版次:1 页数:433 字数:655000 印刷时间:2013-8-1 开本:16开纸张:胶版纸印次:1 包装:平装丛书名:清华开发者书库国际标准书号ISBN:978730233 ...
SQL Server 常用关键字
SQL 建库建表 --1.创建一个数据库 create database School; --删除数据库 drop database School; --创建数据库的时候指定一些选项. create ...
css一些小的效果
1.http://www.shejidaren.com/creative-dashboard-designs.html 网址:
java 内部类与外部类的区别
最近在看Java相关知识的时候发现Java中同时存在内部类以及非公有类概念,而且这两个类都可以不需要单独的文件编写,可以与其他类共用一个文件.现根据个人总结将两者的异同点总结如下,如有什么不当地方,欢 ...
python学习之day5,装饰器，生成器，迭代器，json，pickle
1.装饰器 import os import time def auth(type): def timeer(func): def inner(*args,**kwargs): start = tim ...

python3 爬虫

python3 爬虫的更多相关文章

随机推荐

热门专题