模拟登陆并爬取Github

因为崔前辈给出的代码运行有误，略作修改和简化了。

书上例题，不做介绍。

import requests

from lxml import etree

class Login(object):

    def __init__(self):

        self.headers = {

            'Referer': 'https://github.com/',

            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36',

            'Host': 'github.com'

        }

        #登陆地址

        self.login_url = 'https://github.com/login'

        #POST请求地址

        self.post_url = 'https://github.com/session'

        #使用session保持状态，并自动处理Cookies(在访问其他子网页时，可以保持登陆，爬取网页)

        self.session = requests.Session()

    def token(self):

        #获取网页数据

        response = self.session.get(self.login_url, headers=self.headers)

        #提取网页中我们需要的authenticity_token并返回

        selector = etree.HTML(response.text)

        token = selector.xpath('//input[@name="authenticity_token"]/@value')

        return token

    def login(self, email, password):

        post_data = {

            'commit': 'Sign in',

            'utf8': '✓',

            'authenticity_token': self.token(),

            'login': email,

            'password': password

        }

        #使用post方法模拟登陆

        response = self.session.post(self.post_url, data=post_data, headers=self.headers)

        #登陆正常，输出登陆后的网页代码，并将它存储带D盘github.txt

        if response.status_code == 200:

            print(response.text)

            with open('D:/github.txt', 'w', encoding = 'utf-8') as f:

                f.write(response.text)

        else:

            print("Error!!!")

if __name__ == "__main__":

    login = Login()

    login.login(email='1024593536@qq.com', password='password')#输入你自己的账户密码

可以改成网页形式查看

模拟登陆并爬取Github的更多相关文章

模拟登陆+数据爬取 (python+selenuim)
以下代码是用来爬取LinkedIn网站一些学者的经历的,仅供参考,注意:不要一次性大量爬取会被封号,不要问我为什么知道 #-*- coding:utf-8 -*- from selenium impo ...
Python爬虫学习笔记之模拟登陆并爬去GitHub
(1)环境准备: 请确保已经安装了requests和lxml库 (2)分析登陆过程: 首先要分析登陆的过程,需要探究后台的登陆请求是怎样发送的,登陆之后又有怎样的处理过程. 如果已经 ...
爬取github项目。
import requests from bs4 import BeautifulSoup url = 'https://github.com/login' headers = { 'User-Age ...
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
通过scrapy，从模拟登录开始爬取知乎的问答数据
这篇文章将讲解如何爬取知乎上面的问答数据. 首先,我们需要知道,想要爬取知乎上面的数据,第一步肯定是登录,所以我们先介绍一下模拟登录: 先说一下我的思路: 1.首先我们需要控制登录的入口,重写star ...
运用cookie登陆人人网爬取数据
浏览器访问WEB服务器的过程在用户访问网页时,不论是通过URL输入域名或IP,还是点击链接,浏览器向WEB服务器发出了一个HTTP请求(Http Request),WEB服务器接收到客户端浏览器的请 ...
Scrapy模拟登陆豆瓣抓取数据
scrapy startproject douban 其中douban是我们的项目名称 2创建爬虫文件进入到douban 然后创建爬虫文件 scrapy genspider dou douban. ...
python爬取github数据
爬虫流程在上周写完用scrapy爬去知乎用户信息的爬虫之后,github上star个数一下就在公司小组内部排的上名次了,我还信誓旦旦的跟上级吹牛皮说如果再写一个,都不好意思和你再提star了,怕你们 ...
新浪微博模拟登陆+数据抓取(java实现)
模拟登陆部分实现: package token.exe; import java.math.BigInteger; import java.util.Random; import org.apache ...

随机推荐

int类型转换成String ，不足n位在前面补0
1.String.format("%02d", 5);-->结果:05 0代表前面要补的字符 2代表字符串长度 d表示参数为整数类型 2.秒转换成时分秒 private St ...
课堂练习--“找水王续"
设计思路: ①跟上次思路一样,将问题简化成从一个数组中找出出现次数最多的3个数. ②将“两两相消"的思路模式,变成“三一相消” ③初始化time为零,kingid为零,然后按顺序赋值,遇到跟 ...
2013年第四届蓝桥杯国赛九宫重排（HashMap+双BFS优化）
九宫重排时间限制:1.0s 内存限制:256.0MB 问题描述如下面第一个图的九宫格中,放着 1~8 的数字卡片,还有一个格子空着.与空格子相邻的格子中的卡片可以移动到空格中.经过若干 ...
c++语言的学习笔记代码与笔记注释《面向对象部分》
#include <iostream> /*这是C++中关于面向对象部分的具体笔记和代码 */ //定义类的语法形式; //类中的成员项目之间相互引用,直接使用成员; //类外引用成员的时 ...
phpstrom 下载及phpStudy环境配置
1.下载phpstudy 2.打开 3. 4. 5.网站网址项目路径新增 host映射 PHP富文本编辑器 6.https://jingyan.baidu.com/articl ...
ASP前端控件设置只读不要用enabled
会导致后台取不到这个控件的值,应该用readonly
poj1753(高斯消元解mod2方程组)
题目链接:http://poj.org/problem?id=1753 题意:一个 4*4 的棋盘,初始时上面放满了黑色或白色的棋子．对 (i, j) 位置进行一次操作后 (i, j), (i + 1 ...
关于cuda拷贝的速度测试
由于没有使用profiler,仅仅通过简单的传输函数测试,如下测试了10000个点,1000000个点,100000000个点的速度: 均按时钟周期来计时,通过MAX调整数据 int main(){ ...
DOS下修改IP地址
这两天不知道怎么回事,IPV4竟然无法修改,郁闷之极下,想到用命令行试试. 于是敲入下面的代码: >netsh <Enter> netsh>interface <Ente ...
Java——事务
一.事务(Transaction) 1. 在开发中我们的一个业务往往需要同时操作多个表,这些操作往往是不可分割,业务中的对数据库的多次操作,要么同时成功,要么全都失败. 2.注意:我们在同一个事务中使 ...

模拟登陆并爬取Github

模拟登陆并爬取Github的更多相关文章

随机推荐

热门专题