scrapy 设置cookie池

代码已经很详细了，可以直接拿来使用了。

包含了：

从网页获取cookie
存入mongodb
定期删除cookie
scrapy中间件对cookie池的取用

#!/usr/bin/python

#coding=utf-8

#__author__='dahu'

#data=2017-

#

import requests

import time

from pymongo import MongoClient

import cookielib

import urllib2

from bson.objectid import ObjectId

url = 'https://www.so.com'

# url = 'https://cn.bing.com/translator'

client = MongoClient('localhost', 27017)

db = client['save_cookie']

collection = db['san60cookie']

def get_header():

    header={

        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",

        "Accept-Encoding": "gzip, deflate, br",

        "Accept-Language": "en-US,en;q=0.8,zh-CN;q=0.6,zh;q=0.4",

        "Cache-Control": "max-age=0",

        "Connection": "keep-alive",

        "Host": "www.so.com",

        "Upgrade-Insecure-Requests": "",

        "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36",

    }

    return headerdef get_cookie_lib():

    cookie = cookielib.CookieJar()

    handler = urllib2.HTTPCookieProcessor(cookie)

    opener = urllib2.build_opener(handler)

    response = opener.open(url)

    # for item in cookie:

    #     print "%s : %s" % (item.name, item.value)

    cookie_dict = {}

    for cook in cookie:

        cookie_dict[cook.name] = cook.value

    return cookie_dict

def save_cookie_into_mongodb(cookie):

    print 'insert'

    insert_data = {}

    insert_data['cookie'] = cookie

    insert_data['insert_time'] = time.strftime('%Y-%m-%d %H:%M:%S')

    insert_data['request_url']=url

    insert_data['insert_timestamp'] = time.time()

    collection.insert(insert_data)

def delete_timeout_cookie(request_url):

    time_out = 300

    for data in collection.find({'request_url':request_url}):

        if (time.time() - data.get('insert_timestamp')) > time_out:

            print 'delete: %s' % data.get('_id')

            collection.delete_one({'_id': ObjectId(data.get('_id'))})
　　　　　　　#这里有疑问的话可以参考http://api.mongodb.com/python/current/tutorial.html#querying-by-objectid
　

def get_cookie_from_mongodb():

    cookies = [data.get('cookie') for data in collection.find()]

    return cookies

if __name__ == '__main__':

    num=0

    while 1:

        if num == 2:

            print 'deleting'

            delete_timeout_cookie(url)

            num = 0

        else:

            cookie = get_cookie_lib()

            save_cookie_into_mongodb(cookie)

            num += 1

            time.sleep(5)

对应的middleware文件，可以写成这样

import random

class CookiesMiddleware(object):

    def process_request(self,request,spider):

        cookie = random.choice(get_cookie_from_mongodb())

        request.cookies = cookie

scrapy 设置cookie池的更多相关文章

scrapy设置"请求池"
scrapy设置"请求池" 引言相信大家有时候爬虫发出请求的时候会被ban,返回的是403错误,这个就是请求头的问题,其实在python发出请求时,使用的是默认的自己的请求头,网 ...
python scrapy 把cookie并转化为字典的形式
在用scrapy设置cookie的时候,需要从网页上对应的页面把cookie字段复制下来,并转化为字典的形式,下面代码是对cookie的转化过程 # -*- coding: utf-8 -*- cla ...
cookie池的维护
存储形式: 存储在redis中,“spider_name:username–password":cookie 建立py文件及包含方法: initcookies() 初始化所有账号的cooki ...
python3简单使用requests 用户代理，cookie池
官方文档:http://docs.python-requests.org/en/master/ 参考文档:http://www.cnblogs.com/zhaof/p/6915127.html#und ...
Scrapy用Cookie实现模拟登录
模拟登录是爬取某些站点内容的一个关键,有些网站(特别是论坛类),不登录的话,一个数据也拿不到. 模拟登录有这样几个关键: 弄清楚登录的url一些网站打开出现登录的页面,地址栏大多数不是登录提交表单的u ...
登陆后设置cookie的方法
public void SetCookie(string userName, string role,string cookieValueName) {FormsAuthentication.Form ...
Jquery设置Cookie
jQuery代码: <script src="js/jquery-1.3.1.js" type="text/javascript"></scr ...
运用JS设置cookie、读取cookie、删除cookie
JavaScript是运行在客户端的脚本,因此一般是不能够设置Session的,因为Session是运行在服务器端的.而cookie是运行在客户端的,所以可以用JS来设置cookie. 假设有这样一种 ...
JS设置cookie、读取cookie、删除cookie
JS设置cookie.读取cookie.删除cookie JS设置cookie,注意一定要path=/ ,根目录,不然其他目录可能查询不到..默认是本目录. document.cookie ...

随机推荐

Oracle数据库代码指令简介
重大提醒!!!oracle里面的查询,一定要把查询名大写!!!就算你创建的时候是小写字母,查询的时候也一定要大写!!! 这是oracle的课后作业,弄懂这些也差不多了吧,不懂的可以去看我的SQL se ...
[应用篇]第一篇 EL表达式入门
概念 EL表达式:EL 全名为Expression Language,就是为了替代<%= %>脚本表达式. 作用获取数据: EL表达式主要用于替换JSP页面中的脚本表达式,以从各种类型的 ...
Shell记录-Shell命令（文件查找）
常见解压/压缩命令 tar文件格式解包:tar xvf FileName.tar打包:tar cvf FileName.tar DirName(注:tar是打包,不是压缩!) .gz文件格式解压1:g ...
打包python脚本为exe的坎坷经历, by pyinstaller方法
打包python脚本为exe的坎坷经历, by pyinstaller方法又应验了那句歌词. 不经历风雨, 怎么见得了彩虹. 安装过程略去不提, 仅提示: pip install pyinstall ...
学以致用:Python爬取廖大Python教程制作pdf
当我学了廖大的Python教程后,感觉总得做点什么,正好自己想随时查阅,于是就开始有了制作PDF这个想法. 想要把教程变成PDF有三步: 先生成空html,爬取每一篇教程放进一个新生成的div,这样就 ...
Spring Data JPA原生SQL查询
package com.test.cms.dao.repository;import org.springframework.stereotype.Repository;import javax.pe ...
Eclipse安卓插件安装
首先说明下载的ADT专门真安卓开发的Eclipse下载下来后就集成了可以直接使用了但是使用j2EE版本的Eclipse就需要安装插件支持安卓开发了首先下载ADT Eclipse安卓插件下载完成后 ...
《PHP和MySQL Web开发》读书笔记（上篇）
最近过得太浮躁了,实在自己都看不下去了,看了PHP圣经之后,觉得非常有必要要总结一下. Chapter1.快速入门 ·PHP标记:总共有三种风格,常用的还是XML风格为主 <?php echo ...
利用SSLStrip截获https协议--抓取邮箱等密码
1.SSL解析 SSL 是 Secure Socket Layer 的简称, 中文意思是安全套接字层,由 NetScape公司所开发,用以保障在 Internet 上数据传输的安全,确保数据在网络的传 ...
mysql高可用架构 -> MHA配置binlog-server-06
前期准备 1.准备一台新的mysql实例(db03),GTID必须开启. 2.将来binlog接收目录,不能和主库binlog目录一样停止mha masterha_stop --conf=/etc/ ...

scrapy 设置cookie池

scrapy 设置cookie池的更多相关文章

随机推荐

热门专题