在leetCode写了105道题高调膜科,考虑搬迁到自己的GitHub上,做成一个解题题库,面试的时候也可以秀一个

但是!但是!

leetCode在线IDE的功能不要太舒服,我直接线上A了不少题,本地没有代码,除非有题调试半天A不来,本地才有存代码

于是我就考虑,直接用Python把leetCode上的AC代码爬下来,然后扔到本地github文件夹里,然后一个同步大法

大概涉及的知识:

0、cookie

1、网站的结构分析

2、脚本登陆

3、脚本爬站

----------------------------------------------------------------------------------------------------------------------------------------------

一、自动登录

Python的cookielib + urllib2 + urllib,然后leetCode这个网站有个Django的什么鸟码,在访问主页时会作为cookie发送过来,而在登录页面需要同时提交这个码,这个时候注意先访问主页,提取了这个码以后再访问登录页面,然后一同提交。

再有就是要修改header,我改了referer,之前一直403,wtf。。

code :

import urllib2
import cookielib
import urllib

mydir = r'C:/Users/user/Documents/GitHub/leetcode/'
myhost = r'https://oj.leetcode.com'

cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
urlOpener = urllib2.build_opener(handler)
urlOpener.open('https://oj.leetcode.com/')

csrftoken = ""
for ck in cookie:
csrftoken = ck.value

login = "shadowmydx"
mypwd = "**********" # 密码

values = {'csrfmiddlewaretoken':csrftoken,'login':login,'password':mypwd,'remember':'on'}
values = urllib.urlencode(values)
headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6)Gecko/20091201 Firefox/3.5.6', \
'Origin':'https://oj.leetcode.com','Referer':'https://oj.leetcode.com/accounts/login/'}

request = urllib2.Request("https://oj.leetcode.com/accounts/login/",values,headers=headers)

url = urlOpener.open(request)

page = url.read()

二、爬站

切割成几个子问题。首先,找到AC的题目地址,其次,找到AC的代码地址,最后,把AC代码爬到本地的GitHub项目文件夹中。

由于leetCode的IDE是js实现的动态页面,所以不能用FireBug直接审查元素来抓,而是要从发送过来的js代码中抓AC代码。这就意味着需要一个字典来转换特殊字符

def saveCode(code,title):
     global mydir
     f = open(mydir + title + '.cpp','w')
     f.write(code)

def downloadCode(refer,codeadd,title):
    global headers
    global urlOpener
    global myhost
    headers['Referer'] = refer
    request = urllib2.Request(codeadd,headers=headers)
    url = urlOpener.open(request)
    all = url.read()
    tar = "storage.put('cpp',"
    index = all.find(tar,0)
    start = all.find('class Solution',index)
    finis = all.find("');",start)
    code = all[start:finis]
    toCpp = {'\u000D':'\n','\u000A':'','\u003B':';','\u003C':'<','\u003E':'>','\u003D':'=',\
    '\u0026':'&','\u002D':'-','\u0022':'"','\u0009':'\t','\u0027':"'",'\u005C':'\\'}
    for key in toCpp.keys():
         code = code.replace(key,toCpp[key])
    saveCode(code,title)

def findCode(address,title):
    global headers
    global urlOpener
    global myhost
    headers['Referer'] = address
    address += 'submissions/'
    print 'now is dealing ' + address + ': ' + title 
    request = urllib2.Request(address,headers=headers)
    url = urlOpener.open(request)
    all = url.read()
    tar = 'class="text-danger status-accepted"'
    index = all.find(tar,0)
    start = all.find('href="',index)
    finis = all.find('">',start)
    downloadCode(address,myhost + all[start + 6:finis],title)

def findAdd(page):
    index = 0
    while 1:
         index = page.find('class="ac"',index)
         if index != -1:
             index += 1
             start = page.find('<td><a href="',index)
             finis = page.find('">',start)
             tmpfin = page.find('<',finis)
             title = page[finis + 2:tmpfin]
             findCode(myhost + page[start + 13:finis],title)
        else:
             break

最后,调用findAdd(page),大功告成

后记:最先的想法是做一个多线程的版本,后来想想还是先实现功能再说,否则就又增加一个烂尾玩具了。。

【原创】用Python爬取LeetCode的AC代码到Github的更多相关文章

  1. python爬取网页的通用代码框架

    python爬取网页的通用代码框架: def getHTMLText(url):#参数code缺省值为‘utf-8’(编码方式) try: r=requests.get(url,timeout=30) ...

  2. python爬虫学习(7) —— 爬取你的AC代码

    上一篇文章中,我们介绍了python爬虫利器--requests,并且拿HDU做了小测试. 这篇文章,我们来爬取一下自己AC的代码. 1 确定ac代码对应的页面 如下图所示,我们一般情况可以通过该顺序 ...

  3. python爬取豆瓣视频信息代码

    目录 一:代码 二:结果如下(部分例子)   这里是爬取豆瓣视频信息,用pyquery库(jquery的python库). 一:代码 from urllib.request import quote ...

  4. python爬取许多图片的代码

    from bs4 import BeautifulSoup import requests import os os.makedirs('./img/', exist_ok=True) URL = & ...

  5. Python 爬取所有51VOA网站的Learn a words文本及mp3音频

    Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...

  6. python爬取网站数据

    开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题 因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...

  7. python爬取某个网页的图片-如百度贴吧

    python爬取某个网页的图片-如百度贴吧 作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...

  8. Python:爬取乌云厂商列表,使用BeautifulSoup解析

    在SSS论坛看到有人写的Python爬取乌云厂商,想练一下手,就照着重新写了一遍 原帖:http://bbs.sssie.com/thread-965-1-1.html #coding:utf- im ...

  9. 使用python爬取MedSci上的期刊信息

    使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...

随机推荐

  1. 实例:怎样使用 Netty 下载文件

    本实例主要參考的是官网的examples:点击这里 使用场景:client向Netty请求一个文件,Netty服务端下载指定位置文件到client. 本实例使用的是Http协议,当然,能够通过简单的改 ...

  2. codeforces.com/contest/325/problem/B

    http://codeforces.com/contest/325/problem/B B. Stadium and Games time limit per test 1 second memory ...

  3. android JNI处理图片的例子

    android JNI处理图片的例子 原地址:http://blog.csdn.net/xjwangliang/article/details/7065670 <pre class=" ...

  4. CSU 1506(最小费用最大流)

    传送门:Double Shortest Paths 题意:有两个人:给出路径之间第一个人走所需要的费用和第二个人走所需要的费用(在第一个人所需的 费用上再加上第二次的费用):求两个人一共所需要的最小费 ...

  5. [PHP]利用MetaWeblog API实现XMLRPC功能

    [PHP]利用MetaWeblog API实现XMLRPC功能 | OWNSELF [PHP]利用MetaWeblog API实现XMLRPC功能 Windows Live Writer是一款小巧的写 ...

  6. 做SEO所要具备的四种能力

    1,不为失败找借口         既然我们选择了做SEO,那么发生网站被降权.被K是常常的事.当这样的情况发生时,大部分站长首先将责任推给百度机制,由于百度更新算法调整遭降权,不是由于他们的优化没有 ...

  7. IE 加速插件之 Google Chrome Frame

    前言 IE 8 及以下版本的速度较慢. 特别是前端的js 和 css 内容较多时尤为突出. 就笔者的开发经验来说GWT, Ext JS, raphael , draw2d 等开发的系统在IE下使用是相 ...

  8. php 多进程中的信号问题

    1.以下代码sleep时间远小于20 <?php // 当子进程退出时,会触发该函数 function sig_handler($sig) { switch($sig) { case SIGCH ...

  9. 10招让你成为杰出的Java程序员(转)

    如果你是一个热衷于技术的 Java 程序员, 那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出. 1. 拥有扎实的基础和深刻理解 OO 原则 对于 Java 程序员,深刻理解 Ob ...

  10. 获取Google音乐的具体信息(方便对Google音乐批量下载)

    Google音乐都是正版音乐, 不像百度所有都是盗链, 并且死链也多. 但有一个麻烦就是要下载Google音乐的时候得一个一个的点击下载链接, 进入下载页面再点"下载", 才干下载 ...