python练习册每天一个小程序第0013题

# -*-coding:utf-8-*—

'''

    题目描述：

         用 Python 写一个爬图片的程序，爬 这个链接里的日本妹子图片 :-)

    地址：

        http://tieba.baidu.com/p/2166231880

    思路：

        用正则表达式匹配图片链接，然后进行下载

'''

'''

import re

import requests

def main():

    url = 'http://tieba.baidu.com/p/2166231880'

    response = requests.get(url)

    html = response.text

    match = re.compile('img .*?src=\"(.*?)\"')

    for i in  match.findall(html):

        if 'imgsrc' in i :

            print i

if __name__ == '__main__':

    main()

'''

import urllib2

import re

from os.path import basename

from urlparse import urlsplit

url = "http://tieba.baidu.com/p/2166231880"

def getPage(url):

    url=url+"?see_lz=1"

    urlContent = urllib2.urlopen(url).read()

    page='<span class="red">(.*?)</span>'

    thePage=re.findall(page,urlContent)

    return int(thePage[0])

def downImg(url):

    urlContent = urllib2.urlopen(url).read()

    spans='<cc>(.*?)</cc>'

    ss=re.findall(spans,urlContent)

    obImgs=','.join(ss)

    imgUrls = re.findall('img .*?src="(.*?)"', obImgs)

    for imgUrl in imgUrls:

        print imgUrl

        '''

        try:

            imgData = urllib2.urlopen(imgUrl).read()

            fileName = basename(urlsplit(imgUrl)[2])

            output = open(fileName,'wb')

            output.write(imgData)

            output.close()

        except:

            print "Er.."

        '''

def downLoad(url):

    numb=getPage(url)

    cont=0

    print "There are "+str(numb)+" pages."

    while cont<numb:

        cont+=1

        print "Downloading "+url+"?see_lz=1&pn="+str(cont)+"..."

        downImg(url+"?see_lz=1&pn="+str(cont))

    print 'Completed!'

downImg(url)

python练习册每天一个小程序第0013题的更多相关文章

python练习册每天一个小程序第0001题
1 # -*-coding:utf-8-*- 2 __author__ = 'Deen' 3 ''' 4 题目描述: 5 做为 Apple Store App 独立开发者,你要搞限时促销,为你的应用生 ...
python练习册每天一个小程序第0007题
1 # -*-coding:utf-8-*- 2 __author__ = 'Deen' 3 ''' 4 题目描述: 5 有个目录,里面是你自己写过的程序,统计一下你写过多少行代码.包括空行和注释,但 ...
python练习册每天一个小程序第0000题
PIL库学习链接:http://blog.csdn.net/column/details/pythonpil.html?&page=1 1 #-*-coding:utf-8-*- 2 __au ...
python练习册每天一个小程序第0010题
# -*-coding:utf-8-*- ''' 题目描述: 使用 Python 生成类似于下图中的字母验证码图片思路: 运用PIL库加random 随机字母进行生成 ''' import rand ...
python练习册每天一个小程序第0009题
1 ''' 2 题目描述: 3 找出一个html文件中所有的url 4 5 思路 : 6 利用正则表达式进行匹配 7 8 ''' 9 10 11 import re 12 13 14 with ope ...
python练习册每天一个小程序第0008题
1 # -*-coding:utf-8-*- 2 __author__ = 'Deen' 3 ''' 4 题目描述: 5 一个HTML文件,找出里面的正文. 6 7 思路: 8 利用Beautiful ...
python练习册每天一个小程序第0006题
1 # -*-coding:utf-8-*- 2 __author__ = 'Deen' 3 ''' 4 题目描述: 5 你有一个目录,放了你一个月的日记,都是 txt,为了避免分词的问题,假设内容都 ...
python练习册每天一个小程序第0005题
1 # -*-coding:utf-8-*- 2 __author__ = 'Deen' 3 ''' 4 题目说明: 你有一个目录,装了很多照片,把它们的尺寸变成都不大于 iPhone5 分辨率的大小 ...
python练习册每天一个小程序第0012题
# -*-coding:utf-8-*- def test(content): text = content flag = 0 with open('filtered_words.txt') as f ...

随机推荐

Lesson14——NumPy 字符串函数之 Par3：字符串信息函数
NumPy 教程目录 1 字符串信息函数 1.1 numpy.char.count char.count(a, sub, start=0, end=None) 返回一个数组,其中包含 [start, ...
三、Mybatis多表关联查询应用
一对一查询实现语句:select * from neworder o, user u where o.uid = u.id 实体Order: 接口: 配置: 测试: 一对多查询实现语句:selec ...
MySQL快速入门（二）
目录 MySQL快速入门(二) 约束条件自增自增的特性主键外键级联更新/删除表与表之间的关系外键约束操作表方法查询关键字练习数据 select··from where 筛选 gro ...
zabbix监控多个nginx vhost网站状态码
需求假设一台服务器运行了N个vhost网站,如何确定在大流量并发时候找到是哪个网站的问题呢? 这似乎是每个运维都会遇到的问题,方法有很多比如:1.看nginx日志大小确定访问量.2.通过前端代理确定 ...
从零开始，开发一个 Web Office 套件（5）：Mouse hover over text
<从零开始, 开发一个 Web Office 套件>系列博客目录这是一个系列博客, 最终目的是要做一个基于HTML Canvas 的, 类似于微软 Office 的 Web Office ...
[数分笔记]用Dedekind切割定理证明确界定理
1.定理内容 Dedekind切割定理:设是实数集的一个切割,则或者有最大数,或者有最小数. 确界定理:非空有上界的数集必有上确界,非空有下界的数集必有下确界. 2.证明过程设非空数集有上界记,即 ...
[转自Matrix67] 趣题：顶点数为多少的图有可能和自己互补
若干个顶点以及某些顶点和顶点之间的连线,就构成了一个"图".如果对某个图进行变换,使得原来任意两个有连线的顶点之间都不再有连线,原来任意两个没有连线的顶点之间现在都有连线了,那么所 ...
三大数据库 sequence 之华山论剑 (上篇)
前言本文将基于以下三种关系型数据库,对 sequence (序列) 展开讨论. Oracle - 应用最广泛的商用关系型数据库 PostgreSQL - 功能最强大的开源关系型数据库 MySQL - ...
RFC2889广播时延测试——网络测试仪实操
一.简介 RFC 2889为LAN交换设备的基准测试提供了方法学,它将RFC 2544中为网络互联设备基准测试所定义的方法学扩展到了交换设备,提供了交换机转发性能(Forwarding Perform ...
别再用 Redis List 实现消息队列了，Stream 专为队列而生
上回说到使用 Redis 的 List 实现消息队列有很多局限性,比如: 没有良好的 ACK 机制: 没有 ConsumerGroup 消费组概念: 消息堆积. List 是线性结构,想要查询指定数据 ...

python练习册 每天一个小程序 第0013题

python练习册 每天一个小程序 第0013题的更多相关文章

随机推荐

热门专题

python练习册每天一个小程序第0013题

python练习册每天一个小程序第0013题的更多相关文章