python 爬虫登录保存会话去获取只有登录能获取的数据

#!/usr/bin/env python

# -*- coding: utf-8 -*-

# import ConfigParser

import datetime

import sys

import requests

from requests.cookies import RequestsCookieJar

from bs4 import BeautifulSoup

import log_config

import time

import random

import re

def is_form_hash(tag):

    return tag.has_attr('name') and tag.get('name') == 'formhash'

def is_refer(tag):

    return tag.has_attr('name') and tag.get('name') == 'referer'

class haifeng_crawler:

    def __init__(self, user_name, pass_word):

        self.cookies = dict()

        self.username = user_name

        self.password = pass_word

        self.session = requests.session()

    def update_cookies(self, new_cookies):

        for key in new_cookies:

            self.cookies[key] = new_cookies[key]

    def req_get(self, url):

        requests.session().cookies = requests.utils.cookiejar_from_dict(self.cookies)

        resp = self.session.get(url)

        self.update_cookies(requests.utils.dict_from_cookiejar(resp.cookies))

        print(self.cookies)

        return resp

    def req_post(self, url, data):

        requests.session().cookies = requests.utils.cookiejar_from_dict(self.cookies)

        resp = self.session.post(url, data)

        self.update_cookies(requests.utils.dict_from_cookiejar(resp.cookies))

        #print(self.cookies)

        return resp

    def login(self):

        url = 'http://www.96bbs.com/member.php?mod=logging&action=login&infloat=yes&handlekey=login&inajax=1&ajaxtarget=fwin_content_login'

        page_res = self.req_get(url)

        #print(page_res.text)

        soup = BeautifulSoup(page_res.text, "html.parser")

        rt = soup.find('root')

        if rt:

            rt = rt.text

            soup = BeautifulSoup(rt, "html.parser")

        else:

            return None;

        #print(rt);

        bb = is_form_hash

        cc = is_refer

        formhash = soup.find(bb).get("value")

        referer = soup.find(cc).get("value")

        print(formhash)

        print(referer)

        url = 'http://www.96bbs.com/member.php?mod=logging&action=login&loginsubmit=yes&handlekey=login&loginhash=LVCbx&inajax=1'

        data = {

            'formhash': formhash,

            'referer': referer,

            'username': self.username,

            'password': '加密后的密码',

            'questionid': 0,

            'answer': ''

        }

        resp = self.req_post(url,data)

        soup = BeautifulSoup(resp.text, "html.parser")

        rt = soup.find('root').text

        print(rt)

    def visit_home(self):

        url = 'http://www.96bbs.com/forum.php'

        self.req_get(url)

    def visit_attachment(self,url):

        resp = self.req_get(url)

        print(resp.status_code)

        print(resp.text)

        return resp

if __name__ == "__main__":

    haifeng = haifeng_crawler("你的用户名","密码需要根据页面取获取加密后的密码")

    haifeng.login()

    haifeng.visit_attachment("http://www.96bbs.com/forum.php?mod=attachment&aid=MjI0NzQ5OHw3YjNkMWMwY3wxNTQwMzYxMzEwfDQ5NzM5OXwzNTM5NTgy")

python 爬虫登录保存会话去获取只有登录能获取的数据的更多相关文章

Python爬虫学习：四、headers和data的获取
之前在学习爬虫时,偶尔会遇到一些问题是有些网站需要登录后才能爬取内容,有的网站会识别是否是由浏览器发出的请求. 一.headers的获取就以博客园的首页为例:http://www.cnblogs.c ...
Python爬虫实战——反爬策略之模拟登录【CSDN】
在<Python爬虫实战-- Request对象之header伪装策略>中,我们就已经讲到:=="在header当中,我们经常会添加两个参数--cookie 和 User-Age ...
Python爬虫入门（基础实战）—— 模拟登录知乎
模拟登录知乎这几天在研究模拟登录, 以知乎 - 与世界分享你的知识.经验和见解为例.实现过程遇到不少疑问,借鉴了知乎xchaoinfo的代码,万分感激! 知乎登录分为邮箱登录和手机登录两种方式,通过 ...
python爬虫12 | 爸爸，他使坏，用动态的 Json 数据，我要怎么搞？
在前面我们玩了好多静态的 HTML 想必你应该知道怎么去爬这些数据了但还有一些常见的动态数据比如商品的评论数据实时的直播弹幕岛国动作片的评分等等这些数据是会经常发生改变的很多网站就会用 ...
附: Python爬虫数据库保存数据
原文 1.笔记 #-*- codeing = utf-8 -*- #@Time : 2020/7/15 22:49 #@Author : HUGBOY #@File : hello_sqlite3.p ...
python爬虫笔记之用cookie访问需要登录的网站
目标:用cookie访问一个需要登录的网站如图,直接访问会跳转到登录页面,提示登录. 运行结果: 直接在浏览器上输入该url,网站立马跳转到登录页面. 方法: 1.先手动登录,通过抓包获取coo ...
python 爬虫newspaper3k 新闻爬去方法利用第三方库
from newspaper import Article url = '你想要爬取的网站url' news = Article(url, language='zh') news .download( ...
Python爬虫实战（一）使用urllib库爬取拉勾网数据
本笔记写于2020年2月4日.Python版本为3.7.4,编辑器是VS code 主要参考资料有: B站视频av44518113 Python官方文档 PS:如果笔记中有任何错误,欢迎在评论中指出, ...
Python爬虫+可视化教学：爬取分析宠物猫咪交易数据
前言各位,七夕快到了,想好要送什么礼物了吗? 昨天有朋友私信我,问我能用Python分析下网上小猫咪的数据,是想要送一只给女朋友,当做礼物. Python从零基础入门到实战系统教程.源码.视频网上 ...

随机推荐

git账户的存储
在使用git时,使用git pull,或git push,每次都要我输入用户名和密码,比较麻烦.git有个参数可以解决这个问题. 修改./git/config文件,增加 [credential] he ...
SuggestFrameWork js代码结构
关于suggestFrameWork的使用教程网上很多,如果您仅仅想知道如何使用请移步.这里展现一下js代码实现结构下载地址 http://sourceforge.net/projects/sugg ...
利用redis限制单个时间内某个mac地址的访问次数
一.思路用户mac地址唯一,可以作为redis中的key,每次请求进来,利用ttl命令,判断redis中key的剩余时间,如果大于零,则利用incr进行+1操作,然后再与总的限制次数作对比. 二.代 ...
js添加对象数组
json 数组也是数组 var jsonstr="[{'name':'a','value':1},{'name':'b','value':2}]"; var jsonarray ...
STL源码剖析之组件
本篇文章开始,进行STL源码剖析的一些知识点,后续系列笔记全是参照<STL源码剖析>进行学习记录的 STL在现在的大部分项目中,实用性已经没有Boost库好了,毕竟STL中仅仅提供了一些容 ...
jQuery插件–jqueryflexselect下拉框自动提示
原理:用户在文本框中输入一个字符(或输入字符的首字母),然后利用ajax,从后台服务器中进行检索,组装后并返回到页面,页面通过javascript进行解析,在一个层里面显示出来. 类似的效果如下: & ...
Hadoop Yarn Capacity Scheduler
Capacity 调度器配置 <property> <name>yarn.resourcemanager.scheduler.class<name> <val ...
java 蓝桥杯算法提高字串统计
思路:这道题用HashMap来保存枚举的字串,key值保存字串-value值保存字串所出现的次数: 通过for循环并使用subString()方法枚举所有符合要求的子串maxStr记录 ...
rocketmq--push消费过程
Rocketmq消费分为push和pull两种方式,push为被动消费类型,pull为主动消费类型,push方式最终还是会从broker中pull消息.不同于pull的是,push首先要注册消费监听器 ...
MySQL 时间函数加减计算
一.MySQL 获得当前日期时间函数 1.1 获得当前日期 + 时间(date + time) 函数:now() mysql> select now();+———————+| now() |+ ...

python 爬虫登录保存会话去获取只有登录能获取的数据

python 爬虫登录保存会话去获取只有登录能获取的数据的更多相关文章

随机推荐

热门专题