爬取github项目。

import requests

from bs4 import BeautifulSoup

url = 'https://github.com/login'

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36',

    'Referer': 'https://github.com/',

    'Upgrade-Insecure-Requests': '1',  # 此处的1 必须是字符串，不是数字

    'Host': 'github.com',

    'Connection': 'keep-alive',

    'Accept-Language': 'zh-CN,zh;q=0.8',

    'Accept-Encoding': 'gzip, deflate, br',

    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'}

res1 = requests.get(url, headers=headers)

# 检验

print(res1.status_code)

print(res1.reason)

# 通过解析页面来获取动态token

soup = BeautifulSoup(res1.text, 'lxml')

tag_input = soup.find(name='input', attrs={'name': 'authenticity_token'})

authenticity_token = tag_input.get('value')

data = {'commit': 'Sign+in',

        'utf8': '✓',

        'authenticity_token': authenticity_token,

        'login': '295345t54341@qq.com',

        'password': '234523456345'}

cookies = res1.cookies.get_dict()

# 这里的url是https://github.com/session，不是https://github.com/login

res2 = requests.post(url='https://github.com/session', headers=headers, cookies=cookies, data=data)

print(authenticity_token)

print(res2.status_code)

print(res2.reason)

cookies.update(res2.cookies.get_dict())

res3 = requests.get(url='https://github.com/settings/repositories',

                    cookies=cookies,

                    headers=headers

                    )

print(res3.url)

print(res3.status_code)

print(res3.reason)

soup3 = BeautifulSoup(res3.text, 'lxml')

project = soup3.find(name='div', attrs={'class': 'listgroup'})

print(project)

project_list = project.find_all(name='a', attrs={'class': 'mr-1'})

for i in project_list:

    project_name = i.text

    project_ = i.get('href')

    project_href = 'https://github.com/' + project_.split('/', maxsplit=1)[1]

    print('项目名称：%s , 项目连接：%s' % (project_name, project_href), '\n')

    # 爬取github注意事项，1.以后携带的cookie使用的是登录后的cookie

    # 2.需要在登录页面找到token,该token是动态的需要使用bs4，或者正则表达式来获取动态值

爬取github项目。的更多相关文章

python爬取github数据
爬虫流程在上周写完用scrapy爬去知乎用户信息的爬虫之后,github上star个数一下就在公司小组内部排的上名次了,我还信誓旦旦的跟上级吹牛皮说如果再写一个,都不好意思和你再提star了,怕你们 ...
模拟登陆并爬取Github
因为崔前辈给出的代码运行有误,略作修改和简化了. 书上例题,不做介绍. import requests from lxml import etree class Login(object): def ...
爬取github上流行的python项目
# -*- coding:utf-8 -*- __author__ = "MuT6 Sch01aR" import requests from pyquery import PyQ ...
window 下拉取github项目失败 (Permission denied (publickey))
原因是github 帐号ssh 失效或者没有配置 1.找到gitcmd 并进入 2.在gitcmd 下切换到安装git路劲\Git\usr\bin 3.提示在C:\Users\Administrat ...
scrapy项目4：爬取当当网中机器学习的数据及价格（CrawlSpider类）
scrapy项目3中已经对网页规律作出解析,这里用crawlspider类对其内容进行爬取: 项目结构与项目3中相同如下图,唯一不同的为book.py文件 crawlspider类的爬虫文件book的 ...
scrapy爬取校花网男神图片保存到本地
爬虫四部曲,本人按自己的步骤来写,可能有很多漏洞,望各位大神指点指点 1.创建项目 scrapy startproject xiaohuawang scrapy.cfg: 项目的配置文件xiaohua ...
开源项目-网上公开http代理爬取、简单分类
爬取网上公开免费代理(http/socks),解析入库,可满足需要切换IP的场景(爬虫.投票等)需求. 项目地址: https://github.com/Jwnie/proxyservice 1.采用 ...
Python爬虫与一汽项目【一】爬取中海油，邮政，国家电网问题总结
项目介绍中国海洋石油是爬取的第一个企业,之后依次爬取了,国家电网,中国邮政,这三家公司的源码并没有多大难度, 采购信息地址: 国家电网电子商务平台 http://ecp.sgcc.com.cn/pr ...
Python爬虫开源项目代码，爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等代码整理
作者:SFLYQ 今天为大家整理了32个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [ ...

随机推荐

Django框架连接Oracle -ServerName方式报错
连接前: 修改后:
C#控制台下测试多线程的源码
下边代码是关于C#控制台下测试多线程的的代码,应该是对小伙伴有所用. class Program { static void Main(string[] args) { ThreadStart num ...
GPRS骨干网逻辑结构
从逻辑上来说,GPRS通过在GSM网络结构中增添SGSN和GGSN两个新的网络节点来实现.由于增加了这两个网络节点,需要命名新的接口.图1说明了GPRS逻辑体系结构.表1给出了GPRS体系结构中的接口 ...
celery定时任务
from celery import Celery from datetime import timedelta app = Celery('gx', broker='redis://localhos ...
"Last_IO_Error: Fatal error: The slave I/O thread stops because master and slave have equal MySQL server UUIDs
最近在部署MySQL主从复制架构的时候,碰到了"Last_IO_Error: Fatal error: The slave I/O thread stops because master a ...
BootStrap table动态增删改表格内数据
1:添加一个[操作]列 { title: "操作", align: 'center', valign: 'middle', width: 160, // 定义列的宽度,单位为像 ...
spring boot + easypoi两行代码excel导入导出
easypoi封装了poi让我们能够非常简单的实现Excel导出,Excel模板导出,Excel导入,Word模板导出等,具体可见官网:http://www.afterturn.cn/. 我这边实现了 ...
Django自定义模板标签和过滤器
1.创建模板库在某个APP所在目录下新建包templatetags,然后在其中创建存储标签或者过滤器的的模块,名称随意,例如myfilters.py. 在这个模块中编写相关代码. 注意:templa ...
python xlrd xlwt
1.什么是xlrd模块? 2.为什么使用xlrd模块? 3.怎样使用xlrd模块? 1.什么是xlrd模块? ♦python操作excel主要用到xlrd和xlwt这两个库,即xlrd是读excel, ...
javaweb复习（一）
学习网站开发一般都是3部走.1.基本的servlet.jsp.js.html的内容学习.2.ssm.ssh之类的框架学习.3.大型网站开发的框架和技术学习(目前我还没学到),我学习这部分主要的书是李兴 ...

爬取github项目。

爬取github项目。的更多相关文章

随机推荐

热门专题