在leetCode写了105道题高调膜科,考虑搬迁到自己的GitHub上,做成一个解题题库,面试的时候也可以秀一个

但是!但是!

leetCode在线IDE的功能不要太舒服,我直接线上A了不少题,本地没有代码,除非有题调试半天A不来,本地才有存代码

于是我就考虑,直接用Python把leetCode上的AC代码爬下来,然后扔到本地github文件夹里,然后一个同步大法

大概涉及的知识:

0、cookie

1、网站的结构分析

2、脚本登陆

3、脚本爬站

----------------------------------------------------------------------------------------------------------------------------------------------

一、自动登录

Python的cookielib + urllib2 + urllib,然后leetCode这个网站有个Django的什么鸟码,在访问主页时会作为cookie发送过来,而在登录页面需要同时提交这个码,这个时候注意先访问主页,提取了这个码以后再访问登录页面,然后一同提交。

再有就是要修改header,我改了referer,之前一直403,wtf。。

code :

import urllib2
import cookielib
import urllib

mydir = r'C:/Users/user/Documents/GitHub/leetcode/'
myhost = r'https://oj.leetcode.com'

cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
urlOpener = urllib2.build_opener(handler)
urlOpener.open('https://oj.leetcode.com/')

csrftoken = ""
for ck in cookie:
csrftoken = ck.value

login = "shadowmydx"
mypwd = "**********" # 密码

values = {'csrfmiddlewaretoken':csrftoken,'login':login,'password':mypwd,'remember':'on'}
values = urllib.urlencode(values)
headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6)Gecko/20091201 Firefox/3.5.6', \
'Origin':'https://oj.leetcode.com','Referer':'https://oj.leetcode.com/accounts/login/'}

request = urllib2.Request("https://oj.leetcode.com/accounts/login/",values,headers=headers)

url = urlOpener.open(request)

page = url.read()

二、爬站

切割成几个子问题。首先,找到AC的题目地址,其次,找到AC的代码地址,最后,把AC代码爬到本地的GitHub项目文件夹中。

由于leetCode的IDE是js实现的动态页面,所以不能用FireBug直接审查元素来抓,而是要从发送过来的js代码中抓AC代码。这就意味着需要一个字典来转换特殊字符

def saveCode(code,title):
     global mydir
     f = open(mydir + title + '.cpp','w')
     f.write(code)

def downloadCode(refer,codeadd,title):
    global headers
    global urlOpener
    global myhost
    headers['Referer'] = refer
    request = urllib2.Request(codeadd,headers=headers)
    url = urlOpener.open(request)
    all = url.read()
    tar = "storage.put('cpp',"
    index = all.find(tar,0)
    start = all.find('class Solution',index)
    finis = all.find("');",start)
    code = all[start:finis]
    toCpp = {'\u000D':'\n','\u000A':'','\u003B':';','\u003C':'<','\u003E':'>','\u003D':'=',\
    '\u0026':'&','\u002D':'-','\u0022':'"','\u0009':'\t','\u0027':"'",'\u005C':'\\'}
    for key in toCpp.keys():
         code = code.replace(key,toCpp[key])
    saveCode(code,title)

def findCode(address,title):
    global headers
    global urlOpener
    global myhost
    headers['Referer'] = address
    address += 'submissions/'
    print 'now is dealing ' + address + ': ' + title 
    request = urllib2.Request(address,headers=headers)
    url = urlOpener.open(request)
    all = url.read()
    tar = 'class="text-danger status-accepted"'
    index = all.find(tar,0)
    start = all.find('href="',index)
    finis = all.find('">',start)
    downloadCode(address,myhost + all[start + 6:finis],title)

def findAdd(page):
    index = 0
    while 1:
         index = page.find('class="ac"',index)
         if index != -1:
             index += 1
             start = page.find('<td><a href="',index)
             finis = page.find('">',start)
             tmpfin = page.find('<',finis)
             title = page[finis + 2:tmpfin]
             findCode(myhost + page[start + 13:finis],title)
        else:
             break

最后,调用findAdd(page),大功告成

后记:最先的想法是做一个多线程的版本,后来想想还是先实现功能再说,否则就又增加一个烂尾玩具了。。

【原创】用Python爬取LeetCode的AC代码到Github的更多相关文章

  1. python爬取网页的通用代码框架

    python爬取网页的通用代码框架: def getHTMLText(url):#参数code缺省值为‘utf-8’(编码方式) try: r=requests.get(url,timeout=30) ...

  2. python爬虫学习(7) —— 爬取你的AC代码

    上一篇文章中,我们介绍了python爬虫利器--requests,并且拿HDU做了小测试. 这篇文章,我们来爬取一下自己AC的代码. 1 确定ac代码对应的页面 如下图所示,我们一般情况可以通过该顺序 ...

  3. python爬取豆瓣视频信息代码

    目录 一:代码 二:结果如下(部分例子)   这里是爬取豆瓣视频信息,用pyquery库(jquery的python库). 一:代码 from urllib.request import quote ...

  4. python爬取许多图片的代码

    from bs4 import BeautifulSoup import requests import os os.makedirs('./img/', exist_ok=True) URL = & ...

  5. Python 爬取所有51VOA网站的Learn a words文本及mp3音频

    Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...

  6. python爬取网站数据

    开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题 因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...

  7. python爬取某个网页的图片-如百度贴吧

    python爬取某个网页的图片-如百度贴吧 作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...

  8. Python:爬取乌云厂商列表,使用BeautifulSoup解析

    在SSS论坛看到有人写的Python爬取乌云厂商,想练一下手,就照着重新写了一遍 原帖:http://bbs.sssie.com/thread-965-1-1.html #coding:utf- im ...

  9. 使用python爬取MedSci上的期刊信息

    使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...

随机推荐

  1. SQL查询语句联系

    建立四个表,分别是学生表,课程表,成绩表和教师信息表 插入信息: 题目: 1. 查询Student表中的所有记录的Sname.Ssex和Class列 select Sname,Ssex,Class f ...

  2. Android实战开发租赁管理软件(适配UI,数据的存储,多线程下载)课程分享

    亲爱的网友,我这里有套课程想和大家分享,假设对这个课程有兴趣的,能够加我的QQ2059055336和我联系. 课程内容简单介绍 我们软件是基于移动设备的.所以我们必定的选择了安卓作为我们的开发工具.课 ...

  3. poj 3270 更换使用

    1.确定初始和目标状态. 明确.目标状态的排序状态. 2.得出置换群,.比如,数字是8 4 5 3 2 7,目标状态是2 3 4 5 7 8.能写为两个循环:(8 2 7)(4 3 5). 3.观察当 ...

  4. 解决NGINX的WORDPRESS伪静态规则失效的问题

    解决NGINX的WORDPRESS伪静态规则失效的问题 前两天搬到了EMSVPS的PR线路上,用上了最新的WDCP2.0管理面板,支持多用户管理(我们几个合租的VPS,最需要这个功能了),感觉很不错, ...

  5. 《TCP/IP作品详细解释2:实现》笔记--Radix树路由表

    通过IP完整的路由是路由机制,它通过搜索路由表来确定从哪个分组被发送的接口执行此,它是不一样的路由策略,路由策略 它是一组规则,这些规则可以被用来确定哪些路由编程到路由表,Net/3内核实现的路由机制 ...

  6. cocos2d 走动椭圆

    1.效果图 艺术与规划说他想与我合作在全国率先主角光环加,椭圆形走动. cocos2d自带没有,參考网上的写了一个. 2.椭圆数学知识 有关椭圆的数学知识我已经忘光了.网上找了点资料: a是椭圆的长半 ...

  7. poj3678(two-sat)

    传送门:Katu Puzzl 题意:n个点,点的取值可以是0或者1.m条边,有权值,有运算方式(并,或,异或),要求和这条边相连的两个点经过边上的运算后的结果是边的权值.问你有没有可能把每个点赋值满足 ...

  8. js使用栈来实现10进制转8进制 js取除数 余数

    function ten2eight(x){ var s=[]; var r=''; while(x>0){ s.push(x%8); x=parseInt(x/8); } while(s.le ...

  9. [置顶] 我的Android进阶之旅------>如何将Android源码导入Eclipse中来查看(非常实用)

    Android源码下载完成的目录结构如如所示: step1:将.classpath文件拷贝到源代码的根目录 Android源码支持多种IDE,如果是针对APP层做开发的话,建议大家使用Eclipse开 ...

  10. C#-循环滚动字幕,timer,从左至右,从右至左,暂停---ShinePans

    Lable的Left属性是能够更改的,可是 Right属性不能够更改,所以我们能够利用 这个特点做自加 自减运算 using System; using System.Collections.Gene ...