爬虫爬oj用户头像

import requests

import Queue

import urllib

import urllib2

import re

import requests

alreadyImg = set()

s = requests.session()

s.post("http://acm.hrbust.edu.cn/index.php?m=User&a=login"

, data={

    "user_name": "",

    "password": ""

})

r = s.get("http://acm.hrbust.edu.cn/index.php?m=User&a=userInfo&user_name=1404020214")

print r.text

urllist = Queue.Queue(maxsize = -1)

already = set()

url = "http://acm.hrbust.edu.cn/index.php?m=Ranklist&a=showRatingrank"

urllist.put(url)

reg = r'a href="(.+?)"'

httpre = re.compile(reg)

#reg = r'src="(.+?\.jpg)"'

reimg = r'img class="large_avatar" src="([^>]+?\.(png|jpg))>?"'

imgre = re.compile(reimg)

def putUrl(html):

    httplist = re.findall(httpre, html)

    for url in httplist:

        realurl = url

        if 'http' not in url:

            realurl = "http://acm.hrbust.edu.cn/"+url

        #print realurl

        if url not in already:

            already.add(url)

            urllist.put(realurl)

x = 0;

def getImg(html):

    Imglist = re.findall(imgre, html)

    global x

    for Img in Imglist:

        Img = Img[0]

        if Img in alreadyImg:

            continue

        else:

            alreadyImg.add(Img)

        print Img

        if Img[0] != 'h':

            Img = "http://acm.hrbust.edu.cn/" + Img

        #print "Img == " +Img

        try:

            urllib.urlretrieve(Img, 'C:/%s.jpg' % x)

        except urllib2.URLError, e:

            pass

        else:

            #print "http://acm.hrbust.edu.cn/"+Img

            x += 1

while True != urllist.empty():

    url = urllist.get(urllist)

    print url

    try:

        r = s.get(url)

        html = r.text

        if "index.php?m=Ranklist&a=showRatingrank" in url:

            putUrl(html)

        getImg(html)

    except urllib2.URLError, e:

        pass

    except urllib2.HTTPError, e:

        pass

    else:

        pass

    #else:

    #    print url

    #print html

    #break

爬虫爬oj用户头像的更多相关文章

利用爬虫爬取指定用户的CSDN博客文章转为md格式，目的是完成博客迁移博文到Hexo等静态博客
文章目录功能爬取的方式: 设置生成的md文件命名规则: 设置md文件的头部信息是否显示csdn中的锚点"文章目录"字样,以及下面具体的锚点默认false(因为csdn中是集 ...
google搜索引擎爬虫爬网站原理
google搜索引擎爬虫爬网站原理一.总结一句话总结:从几个大站开始,然后开始爬,根据页面中的link,不断爬从几个大站开始,然后开始爬,根据页面中的link,不断加深爬 1.搜索引擎和数据库检 ...
node：爬虫爬取网页图片
代码地址如下:http://www.demodashi.com/demo/13845.html 前言周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图片 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
简单的python爬虫--爬取Taobao淘女郎信息
最近在学Python的爬虫,顺便就练习了一下爬取淘宝上的淘女郎信息:手法简单,由于淘宝网站本上做了很多的防爬措施,应此效果不太好! 爬虫的入口:https://mm.taobao.com/json/r ...
python爬虫之User-Agent用户信息
python爬虫之User-Agent用户信息爬虫是自动的爬取网站信息,实质上我们也只是一段代码,并不是真正的浏览器用户,加上User-Agent(用户代理,简称UA)信息,只是让我们伪装成一个浏览 ...
python3爬虫爬取网页思路及常见问题（原创）
学习爬虫有一段时间了,对遇到的一些问题进行一下总结. 爬虫流程可大致分为:请求网页(request),获取响应(response),解析(parse),保存(save). 下面分别说下这几个过程中可以 ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
Python爬虫爬取数据的步骤
爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...

随机推荐

Pearls DP
Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 6647 Accepted: 3241 Description In Pe ...
动态规划——树形dp
动态规划作为一种求解最优方案的思想,和递归.二分.贪心等基础的思想一样,其实都融入到了很多数论.图论.数据结构等具体的算法当中,那么这篇文章,我们就讨论将图论中的树结构和动态规划的结合——树形dp. ...
Apache-Tika解析JPEG文档
通常在使用爬虫时,爬取到网上的文章都是各式各样的格式处理起来比较麻烦,这里我们使用Apache-Tika来处理JPEG格式的图片,如下: package com.mengyao.tika.app; i ...
HTML embed标签使用方法和属性详解
一.基本语法代码如下: embed src=url 说明:embed可以用来插入各种多媒体,格式可以是 Midi.Wav.AIFF.AU.MP3等等,Netscape及新版的IE 都支持 ...
jQuery效果：隐藏、显示、切换、滑动、淡入淡出、动画
jQuery效果隐藏.显示.切换.滑动.淡入淡出.以及动画 1.隐藏与显示(改变:display:none;) hide()--隐藏 show()--显示 toggle()方法:可以使用它来切换hi ...
Spring入门一
一简介 1.Spring为企业应用的开发提供了一个轻量级的解决方案,该解决方案包括:基于依赖注入的核心机制.基于AOP的声明式事务管理.与多种持久层技术的整合,以及优秀的Web MVC框架等等.可 ...
mysql主从复制详解
转自 http://blog.csdn.net/m582445672/article/details/7731565 实践: http://shiyanjun.cn/archives/584.html ...
怎样在loop中处理异常
怎样在loop中处理异常,而不跳出出现符号“exception”在需要下下列之一时的解决办法; 如果sql中发生异常,我们可以用 exception when others then d ...
利用column-width属性设置多栏布局
css样式设置为: div{ background:blanchedalmond; margin:0 auto; width:1230px; -moz-column-width:400px; -web ...
Swift 算法实战之路：基本语法与技巧
Swift是苹果新推出的编程语言,也是苹果首个开源语言.相比于原来的Objective-C,Swift要更轻便和灵活.笔者最近使用Swift实践了大量的算法(绝大部分是硅谷各大公司的面试题),将心得体 ...

爬虫爬oj用户头像

爬虫爬oj用户头像的更多相关文章

随机推荐

热门专题