python写的百度贴吧相册下载

突然想搞个这样的工具，写来写去都不知道在干嘛了，本来两个文件，现在整合在一起了。

乱得不行，懒得整理了，能用就行。

下载部分用了多线程，但是下载一个文件还是用的单线程，也就是没管http头的range问题。貌似速度也不咋地。

开始遇到的一个问题是直接用urllib的urlretrieve或者是先urlopen再read()出来老是出错，或者丢失，后来本来打算外挂一个wget.exe来下载，想来想去还是得不偿失，所以现在分几个block来读，应该是可以的。

另外百度相册用了ajax的动态页面加载技术，所以在浏览器上看到的带#号或者#!的url不能直接用urllib去open，#后的东西是不会POST到服务器的。

后来用浏览器的审查元素工具，切换到网络页面，发现请求的url，其实还是传递了参数的，这就比较好解决了。

算了，丢代码吧。

PS：最近发现美版的《极速前进》很好看，这段时间一直在看

# -*- coding: cp936 -*-

import urllib,re,urllib2

import os,os.path

import time

import threading

import sys

IS_DEBUG = False

MULTI_THREAD = False

MAX_Thread = 20

tieba_info_fp = ""

#tbName = raw_input("输入贴吧名称：")

tbName = ""

tieba_url_base = "http://tieba.baidu.com"

pgUrl_base="http://tieba.baidu.com/photo/g?kw="

photo_url_base = "http://imgsrc.baidu.com/forum/pic/item/"

BLOCK_SIZE = 4096

threadLock = threading.Lock()

# 打印信息到文件和屏幕

def print_f(msg):

    global tieba_info_fp

    print msg

    tieba_info_fp.write(msg+'\n')

    tieba_info_fp.flush() 

def download_file(url,path):

    if os.path.isfile(path):

        return

    r = urllib.urlopen(url)

    fileName = ""

    if path != "":

        fileName = path

    elif r.info().has_key('Content-Disposition'):

        fileName = r.info()['Content-Disposition'].split('filename=')[1]

        fileName = fileName.replace('"', '').replace("'", "")

    else:

        fileName = url[url.rfind('/')+1:]

    if os.path.isfile(fileName):

        return

    else:

        file_length = int(r.info()['Content-Length'])

        download_size=0

        f = open(fileName, 'wb')

        try:

            while download_size<file_length:

                dat = r.read(BLOCK_SIZE)

                l = len(dat)

                if l>0:

                    f.write(dat)

                    download_size += l

                else:

                    f.close()

                    os.remove(fileName)

                    raise Exception,"time out"

        except Exception,e:

            f.close()

            os.remove(fileName)

            raise Exception,e

        finally:

            f.close()

class MultiDownload(threading.Thread):

    def __init__(self,dat):

        threading.Thread.__init__(self)

        self.dat = dat

    def run(self):

        while 1:

            pos,url,path = self.dat.start_one()

            if pos == None:

                break

            try:

                download_file(url,path)

                self.dat.end_one(pos)

            #出错标记为未下载

            except Exception,e:

                self.dat.renew_one(pos)

                print url,e

class DData:

    def __init__(self):

        self.pos = 0

        self.url = []

        self.path = []

        #0 1 2

        self.status = []

    def add(self,url,path):

        self.url.append(url)

        self.path.append(path)

        self.status.append('0')

        self.pos += 1

    #获取一条未下载的数据，并设置为1（正在下载），返回pos，所有都下载完返回None

    def start_one(self):

        try:

            pos = self.status.index('0')

            threadLock.acquire()

            self.status[pos] = '1'

            threadLock.release()

            return pos,self.url[pos],self.path[pos]

        except ValueError:

            return None,None,None

    #结束一条下载

    def end_one(self,pos):

        threadLock.acquire()

        self.status[pos] = '2'

        threadLock.release()

    #标记未下载一条下载

    def renew_one(self,pos):

        threadLock.acquire()

        self.status[pos] = '0'

        threadLock.release()

def multi_download_run(url_list,path_list=[],MAX_Thread=10):

    dat = DData()

    for i in xrange(0,len(url_list)):

        if path_list==[]:

            fn = url[url.rfind('/')+1:]

            path = os.path.join(os.getcwd(),fn)

        else:

            path = path_list[i]

        dat.add(url_list[i],path)

    threads = []

    for i in xrange(0,MAX_Thread):

        threads.append(MultiDownload(dat))

    for t in threads:

        t.start()

    for t in threads:

        t.join()

def multi_download(pic_list):

    url_list = []

    path_list =[]

    for id in pic_list:

        fn = id + ".jpg"

        url = photo_url_base + fn

        path = os.path.join(os.getcwd(),fn)

        url_list.append(url)

        path_list.append(path)

    multi_download_run(url_list,path_list,MAX_Thread=10)

# 进入子目录,如果不存在则创建

def chsubdir(dirname):

    cwd=os.getcwd()

    subdir = os.path.join(cwd,dirname)

    if os.path.exists(subdir) == False:

        os.mkdir(subdir)

    os.chdir(subdir)

## 读取相册

def read_album(tid,name):

    chsubdir(name)

    if IS_DEBUG == True:

        return

    url= 'http://tieba.baidu.com/photo/bw/picture/guide?kw=%s&tid=%s&see_lz=1&from_page=0&alt=jview&next=15'%(tbName,tid)

    # print url

    pageData = urllib.urlopen(url).read()

    #print pageData

    p = re.compile('"pic_amount":(\d+),')

    pic_amount = p.search(pageData).group(1)

    print_f ("┗━━"+name + ' '+pic_amount + '张')

    p = re.compile('"original":{"id":"(\S+?)"')

    find_list = p.findall(pageData)

    pic_list = find_list

    i= len(pic_list)

    pic_amount=int(pic_amount) # 转化为整数型

    while pic_amount>i:

        #print i

        url2 = url+"&prev=0&pic_id="+pic_list[-1]

        pageData = urllib.urlopen(url2).read()

        p = re.compile('"original":{"id":"(\S+?)"')

        find_list = p.findall(pageData)

        pic_list = pic_list + find_list[1:]

        i=len(pic_list)

    multi_download(pic_list)

## 读取相册集

def read_catalog(url,name):

    if name != '':

        chsubdir(name)

        print_f(name)

    page = 1

    while 1:

        url_page = "%s&pn=%d"%(url,page)

        pageData = urllib2.urlopen(url_page).read()

        p = re.compile ('<div class="grbm_ele_title.+?href="(\S+?)".+?title="(.+?)"',re.S)

        result = p.findall(pageData)

        root_dir = os.getcwd()

        if len(result)==0:

            break

        else :

            for a in result:

                #cUrl = tieba_url_base + a[1]

                tid=a[0][3:]

                cName = a[1]

                os.chdir(root_dir)

                read_album(tid,cName)

            page += 1

## 读取根目录信息

def read_root(url,name):

    global tieba_info_fp

    chsubdir(name)

    try:

        tieba_info_fp = file('%s吧信息.txt'%(name),"w")

        print_f('【%s】'%(name))

        pageData = urllib.urlopen(url).read()

    #1、读取总相片数量

        p = re.compile ('<div class="picture_amount_total">共有图片 (\d+?) 张</div>',re.S)

        result = p.findall(pageData)

        picture_amount_total = 0

        if len(result) == 0:

            print_f('可能这个贴吧不存在，或者这个程序已经不能使用')

            tieba_info_fp.close()

            return

        else:

            picture_amount_total = int(result[0])

        print_f('共有图片 %d 张'%(picture_amount_total))

    #2、先尝试存在相册分类的情况

        p = re.compile ('<li class="catalog_li_normal.+?href="(\S+?)".+?catalog_a_inner">(.+?)<span class="catalog_a_amount">\((\d+?)\)</span>',re.S)

        result = p.findall(pageData)

        root_dir = os.getcwd()

        if len(result)>0:

            for a in result:

                cat_id = a[0][10:]

                cat_name = a[1]

                os.chdir(root_dir)

                cat_url = url+ "&cat_id=" + cat_id

                read_catalog(cat_url,cat_name)

    #3、没有相册分类，直接获取所有相册目录

        else:

            cat_url = url+ "&cat_id=all"

            read_catalog(cat_url,'')

    except Exception,e:

        print e

    finally:

        tieba_info_fp.close()

def main():

    global tbName

    args = len(sys.argv)

    if args>1:

        for i in range(1,args):

            tbName = sys.argv[i]

            print sys.argv[i]

            pgUrl = pgUrl_base + tbName

            read_root(pgUrl,tbName)

    else:

        tbName = raw_input("输入贴吧名称：")

        pgUrl = pgUrl_base + tbName

        read_root(pgUrl,tbName)

if __name__ == '__main__':

    main()

python写的百度贴吧相册下载的更多相关文章

python写的百度图片爬虫
学了一下python正则表达式,写一个百度图片爬虫玩玩. 当技术遇上心术不正的人,就成我这样的2B青年了. python3.6开发.程序已经打包好,下载地址: http://pan.baidu.com ...
用python写一个百度翻译
运行环境: python 3.6.0 今天处于练习的目的,就用 python 写了一个百度翻译,是如何做到的呢,其实呢就是拿到接口,通过这个接口去访问,不过中间确实是出现了点问题,不过都解决掉了先晾 ...
用python实现的百度音乐下载器-python-pyqt-改进版
之前写过一个用python实现的百度新歌榜.热歌榜下载器的博文,实现了百度新歌.热门歌曲的爬取与下载.但那个采用的是单线程,网络状况一般的情况下,扫描前100首歌的时间大概得到40来秒.而且用Pyqt ...
疯狂Python讲义PDF高清完整版免费下载|百度网盘
百度网盘:疯狂Python讲义PDF高清完整版免费下载提取码:uzba 内容简介 <疯狂Python讲义>既是一本适合初学者入门Python的图书(一个8岁的小朋友在未出版前已学习了本书 ...
从Python开始学编程|PDF百度网盘免费下载|Python新手入门
百度网盘免费下载:从Python开始学编程|附PDF免费下载提取码:7nkf 豆瓣评分: 本书封面: 读者评论: 内容简介 · · · · · · 改编自Vamei博客的<Python快速教 ...
笨办法学Python 3|百度网盘免费下载|新手基础入门书籍
点击下方即可百度网盘免费提取百度网盘免费下载:笨办法学Python 3 提取码:to27 内容简介: 本书是一本Python入门书,适合对计算机了解不多,没有学过编程,但对编程感兴趣的读者学习使用. ...
Python编程导论第2版|百度网盘免费下载|新手学习
点击下方即可免费下载百度网盘免费下载:Python编程导论第2版提取码:18g5 豆瓣评论: 介绍: 本书基于MIT 编程思维培训讲义写成,主要目标在于帮助读者掌握并熟练使用各种计算技术,具备用计 ...
像计算机科学家一样思考Python(第2版)|百度网盘免费下载|Python新手入门资料
像计算机科学家一样思考Python(第2版)|百度网盘免费下载提取码:01ou 内容简介 · · · · · · 本书以培养读者以计算机科学家一样的思维方式来理解Python语言编程.贯穿全书的主 ...
《谁说菜鸟不会数据分析》高清PDF全彩版|百度网盘免费下载|Python数据分析
<谁说菜鸟不会数据分析>高清PDF全彩版|百度网盘免费下载|Python数据分析提取码:p7uo 内容简介 <谁说菜鸟不会数据分析(全彩)>内容简介:很多人看到数据分析就望而 ...

随机推荐

java之URL类
Java的网络类可以让你通过网络或者远程连接来实现应用.而且,这个平台现在已经可以对国际互联网以及URL资源进行访问了.Java的URL类可以让访问网络资源就像是访问你本地的文件夹一样方便快捷.我们 ...
一天一个Java基础——反射
1.概念反射主要是指程序可以访问,检测和修改它本身的状态或行为的一种能力 Java中的反射是一种强大的工具,它能够创建灵活的代码,这些代码可以运行时装配,无须在组件之间进行链接反射允许在编写与执行 ...
css的框架——global.css
global.css,一般这个css文件是用于装全站主要框架css样式代码. “global”翻译为全局.全部.从翻译中大家也能理解global.css用于做什么.大站常常用于装全站公共的CSS样式选 ...
只用css实现“每列四行，加载完一列后数据自动填充到下一列”的效果
只用css实现“每列四行,加载完一列后数据自动填充到下一列”的效果.这个题目用图表示如下: 如果将题目换成“只用css实现每行四列,加载完一行后数据自动填充到下一行”,那这个问题就简单多了,相信大家都 ...
web.config配置详细说明
(一).Web.Config是以XML文件规范存储,配置文件分为以下格式 1.配置节处理程序声明特点:位于配置文件的顶部,包含在<configSections>标志中. 2.特定应 ...
bjfu1164 Parity Game
简单规律题.首先想到的是,若01串中1有n个,则可以通过操作,使串中1的个数变为n-1.n-2……1.0个:第2个想到的是,如果n为奇数,可以通过操作,使串中1的个数最多变为n+1,而若n为偶数,则无 ...
web自动化框架之四测试报告的搭建
现状: 看过前面的文章,楼主用的是python,所以在搭建测试报告这块的时候使用的是unittest+htmlTestRunner:然后发现生成出来的报告,总是有那么不完美的地方,比如想增加图片,比如 ...
linux常用命令之--文件打包与压缩命令
linux的文件打包与压缩命令 1.压缩与解压命令 compress:用于压缩指定的文件,后缀为.z 其命令格式如下: compress [-d] 文件名常用参数: -d:解压被压缩的文件(.z为后 ...
Tableau学习笔记之三
1.Tableau可以连接多种多样的数据以及数据库,例如txt,xls,mdb,sql server,oracle等等 2.Tableau还可以从剪贴板上粘贴数据 3.维度和度量的理解: 1)维度即表 ...
Java学习笔记（3）
“当你定义出一组类的父型时,你可以用子型的任何类来填补任何需要或期待父型的位置” “运用多态时,引用类型可以是实际对象类型的父类”Animal myDog = new Dog(); 三种方法可以防止某 ...

python写的百度贴吧相册下载

python写的百度贴吧相册下载的更多相关文章

随机推荐

热门专题