【原创】用Python爬取LeetCode的AC代码到Github

在leetCode写了105道题高调膜科，考虑搬迁到自己的GitHub上，做成一个解题题库，面试的时候也可以秀一个

但是！但是！

leetCode在线IDE的功能不要太舒服，我直接线上A了不少题，本地没有代码，除非有题调试半天A不来，本地才有存代码

于是我就考虑，直接用Python把leetCode上的AC代码爬下来，然后扔到本地github文件夹里，然后一个同步大法

大概涉及的知识：

0、cookie

1、网站的结构分析

2、脚本登陆

3、脚本爬站

----------------------------------------------------------------------------------------------------------------------------------------------

一、自动登录

Python的cookielib + urllib2 + urllib，然后leetCode这个网站有个Django的什么鸟码，在访问主页时会作为cookie发送过来，而在登录页面需要同时提交这个码，这个时候注意先访问主页，提取了这个码以后再访问登录页面，然后一同提交。

再有就是要修改header，我改了referer，之前一直403，wtf。。

code ：

import urllib2
import cookielib
import urllib

mydir = r'C:/Users/user/Documents/GitHub/leetcode/'
myhost = r'https://oj.leetcode.com'

cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
urlOpener = urllib2.build_opener(handler)
urlOpener.open('https://oj.leetcode.com/')

csrftoken = ""
for ck in cookie:
csrftoken = ck.value

values = {'csrfmiddlewaretoken':csrftoken,'login':login,'password':mypwd,'remember':'on'}
values = urllib.urlencode(values)
headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6)Gecko/20091201 Firefox/3.5.6', \
'Origin':'https://oj.leetcode.com','Referer':'https://oj.leetcode.com/accounts/login/'}

request = urllib2.Request("https://oj.leetcode.com/accounts/login/",values,headers=headers)

url = urlOpener.open(request)

page = url.read()

二、爬站

切割成几个子问题。首先，找到AC的题目地址，其次，找到AC的代码地址，最后，把AC代码爬到本地的GitHub项目文件夹中。

由于leetCode的IDE是js实现的动态页面，所以不能用FireBug直接审查元素来抓，而是要从发送过来的js代码中抓AC代码。这就意味着需要一个字典来转换特殊字符

def saveCode(code,title):
global mydir
f = open(mydir + title + '.cpp','w')
f.write(code)

def downloadCode(refer,codeadd,title):
global headers
global urlOpener
global myhost
headers['Referer'] = refer
request = urllib2.Request(codeadd,headers=headers)
url = urlOpener.open(request)
all = url.read()
tar = "storage.put('cpp',"
index = all.find(tar,0)
start = all.find('class Solution',index)
finis = all.find("');",start)
code = all[start:finis]
toCpp = {'\u000D':'\n','\u000A':'','\u003B':';','\u003C':'<','\u003E':'>','\u003D':'=',\
'\u0026':'&','\u002D':'-','\u0022':'"','\u0009':'\t','\u0027':"'",'\u005C':'\\'}
for key in toCpp.keys():
code = code.replace(key,toCpp[key])
saveCode(code,title)

def findCode(address,title):
global headers
global urlOpener
global myhost
headers['Referer'] = address
address += 'submissions/'
print 'now is dealing ' + address + ': ' + title
request = urllib2.Request(address,headers=headers)
url = urlOpener.open(request)
all = url.read()
tar = 'class="text-danger status-accepted"'
index = all.find(tar,0)
start = all.find('href="',index)
finis = all.find('">',start)
downloadCode(address,myhost + all[start + 6:finis],title)

def findAdd(page):
index = 0
while 1:
index = page.find('class="ac"',index)
if index != -1:
index += 1
start = page.find('<td><a href="',index)
finis = page.find('">',start)
tmpfin = page.find('<',finis)
title = page[finis + 2:tmpfin]
findCode(myhost + page[start + 13:finis],title)
else:
break

最后，调用findAdd(page)，大功告成

后记：最先的想法是做一个多线程的版本，后来想想还是先实现功能再说，否则就又增加一个烂尾玩具了。。

【原创】用Python爬取LeetCode的AC代码到Github的更多相关文章

python爬取网页的通用代码框架
python爬取网页的通用代码框架: def getHTMLText(url):#参数code缺省值为‘utf-8’(编码方式) try: r=requests.get(url,timeout=30) ...
python爬虫学习(7) —— 爬取你的AC代码
上一篇文章中,我们介绍了python爬虫利器--requests,并且拿HDU做了小测试. 这篇文章,我们来爬取一下自己AC的代码. 1 确定ac代码对应的页面如下图所示,我们一般情况可以通过该顺序 ...
python爬取豆瓣视频信息代码
目录一:代码二:结果如下(部分例子) 这里是爬取豆瓣视频信息,用pyquery库(jquery的python库). 一:代码 from urllib.request import quote ...
python爬取许多图片的代码
from bs4 import BeautifulSoup import requests import os os.makedirs('./img/', exist_ok=True) URL = & ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
Python:爬取乌云厂商列表，使用BeautifulSoup解析
在SSS论坛看到有人写的Python爬取乌云厂商,想练一下手,就照着重新写了一遍原帖:http://bbs.sssie.com/thread-965-1-1.html #coding:utf- im ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...

随机推荐

lightoj 1179（线段树）
传送门:Josephus Problem 题意:经典约瑟夫问题,有n个人,每次数到第k个人出列,求剩下的最后一人. 分析:用线段树模拟约瑟夫问题,记录区间的减少情况,然后根据每次数到的人在区间排第几位 ...
MQ、JMS以及ActiveMQ
MQ简介: MQ全称为Message Queue, 消息队列(MQ)是一种应用程序对应用程序的通信方法.应用程序通过写和检索出入列队的针对应用程序的数据(消息)来通信,而无需专用连接来链接它们.消息传 ...
iOS学习——JSON数据解析（十一）
在之前的<iOS学习——xml数据解析(九)>介绍了xml数据解析,这一篇简单介绍一下Json数据解析.JSON 即 JavaScript Object Natation,它是一种轻量级的 ...
JAVA - 优雅的记录日志（log4j实战篇）（转）
写在前面项目开发中,记录错误日志有以下好处: 方便调试便于发现系统运行过程中的错误存储业务数据,便于后期分析在java中,记录日志有很多种方式: 自己实现自己写类,将日志数据,以io操作方式 ...
UNIX 网络编程之线程
概述: 实现并发服务器一般都是父进程accept一个连接,然后fork一个子进程,该子进程处理与该连接对端的客户之间的通信.但是fork是昂贵,耗资源和时间.而线程是轻量级线程,它的创建比进程的创建块 ...
zoj 2972 - Hurdles of 110m
题目:110米栏,运动员能够用三种状态跑,1状态耗体力且跑得快,2状态不消耗体力,3状态恢复体力且跑得慢. 体力上限是M,且初始满体力,如今想知到最小的时间跑全然程. 分析:dp,全然背包.题目是一个 ...
经常使用Firefox插件大全
Web开发者经常使用的火狐插件 1)FireShot:是一个截图工具,来源于截图软件Screenshot Studio的开发商,是一个Firefox扩展或者说是Firefox版的Screenshot ...
AngularJS是为了克服HTML在构建应用上的不足而设计的
AngularJS中文网:http://www.apjs.net/ 简介 AngularJS是为了克服HTML在构建应用上的不足而设计的.HTML是一门很好的为静态文本展示设计的声明式语言,但要构 ...
HDSF主要节点解说(二)工作原理
HDFS(Hadoop Distributed File System )Hadoop分布式文件系统. 是依据google发表的论文翻版的.论文为GFS(Google File System)Goog ...
利用try-catch判断变量是已声明未声明还是未赋值
原文利用try-catch判断变量是已声明未声明还是未赋值这篇文章主要介绍了利用try-catch判断变量是已声明未赋值还是未声明,需要的朋友可以参考下目的是如果一个变量是已声明未赋值,就可以直 ...

【原创】用Python爬取LeetCode的AC代码到Github

【原创】用Python爬取LeetCode的AC代码到Github的更多相关文章

随机推荐

热门专题