Python小爬虫——贴吧图片爬虫V2.0

贴吧图片爬虫进阶：在上次的第一个小爬虫过后，用了几次发现每爬一个帖子，都要自己手动输入帖子链接，WTF这程序简直反人类！不行了不行了得改进改进。

思路：

贴吧的链接可以从每个贴吧首页爬取
再从爬取到的贴吧链接中一个个去下载图片
图片得按帖子放置好，不然就太乱了

在这期间研究了下Xpath：

Xpath是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。

简单点来说就是能让你的爬虫通过标签的id、class、name等属性可以获取到标签的属性或内容的一门语言，就不用去写讨厌的正则表达式了（刚开始用正则人都要炸了）

Xpath的学习视频呢，在这里--->Go

当然其实用re也能实现，废话也不多说了，开始正题了

帖子链接的爬取：

我们的目标当然是：壁纸吧、萌妹子、爆照吧等等等等

作为一个绅士还是以壁纸吧来做示范吧：http://tieba.baidu.com/f?kw=%E5%A3%81%E7%BA%B8&ie=utf-8

打开壁纸吧

通过右键检查、或是查看源码找到每个帖子的标签

帖子的标签在这里

<a href="/p/4686986115" title="【壁纸】江湖多风雨，天下已入秋" target="_blank" class="j_th_tit ">【壁纸】江湖多风雨，天下已入秋</a>

应该就是href后面的哪个 "/p/4686986115" 了

点进去果然，就是在前面多了串 http://tieba.baidu.com

OK!那把链接爬取出来就相当容易了：

from lxml import etree

def getArticleLinks(url):

    html = requests.get(url)

    Selector = etree.HTML(html.text)

    # 通过Xpath 获取每个帖子的url后缀

    url_list = Selector.xpath('//div[@class="threadlist_lz clearfix"]/div/a/@href')

    # 在每个后缀前加上百度贴吧的url前缀

    for i in range(len(url_list)):

        url_list[i] = 'http://tieba.baidu.com' + url_list[i]

    return url_list

图片按文件夹下载：

先是一个帖子的图片下载：

def get_img(url):

    html = requests.get(url)

    # 这里用Xpath或者之前的re拿到img_url_list

    Selector = etree.HTML(html.text)

    img_url_list = Selector.xpath('//*[@class="BDE_Image"]/@src')

    pic_name = 0

    # 下载图片

    for each in img_url_list:

        urllib.urlretrieve(each, 'pic_%s.jpg' % pic_name)

        pic_name += 1

其实这样已经差不多了，再来个循环每个帖子链接来一次 get_img 就可以获取到所有的图片，但是这样的话：

那么多帖子的图片在一起很乱
下一个帖子的图片会把上一个帖子图片覆盖（因为都是pic_00.jpg开始的，且都在一个文件夹内）

我的想法是建一个downloads文件夹，然后在里面按帖子分文件夹存放下载下来的图片

# 该目录下创建一个downloads文件夹存放下载图片

    if not os.path.exists('downloads'):

        os.mkdir('downloads')

当然是没有的时候建立，有的话就可以不用了

然后按帖子分文件夹

# 这里把帖子url的后缀作为文件夹名，因为不能有'/'所以把它替换成了''

img_dir = 'downloads/' + url_list[i][23:].replace("/", '')

        if not os.path.exists(img_dir):

            os.mkdir(img_dir)

然后就可以下载了：

def download_img(url_list):

    if not os.path.exists('downloads'):

        os.mkdir('downloads')

    for each in url_list:

        img_dir = 'downloads/' + each[23:].replace("/", '')

        if not os.path.exists(img_dir):

            os.mkdir(img_dir)

        get_img(each)

然而并没有一个个图片按帖子放好，文件夹是建好了。

经过研究发现，应该在 get_img 之前应该先把当前目录改为要放的文件夹目录下

os.chdir(path) 可以用来改变python当前所在的文件夹

然后在下载完一个帖子后得移回当前目录，最后的代码就是：

def download_img(url_list):

    # 该目录下创建一个downloads文件夹存放下载图片

    if not os.path.exists('downloads'):

        os.mkdir('downloads')

    root_path = os.getcwd()

    for each in url_list:

        img_dir = 'downloads/' + each[23:].replace("/", '')

        if not os.path.exists(img_dir):

            os.mkdir(img_dir)

        os.chdir(img_dir)

        get_img(each)

        os.chdir(root_path)

啪啪啪啪啪[完美]

交互：

老样子和之前的第一个小爬虫一样，添加一些交互。

不过我发现，一个贴吧第一页的帖子也贼多，然后由于爬虫暂时还是单线程的

所以若是要将整个第一页爬完，也是要花挺多时间，就稍微修改了下，加了一个帖子个数的输入

最终的代码：

# coding:utf-8

import requests

import os

import urllib

import re

from lxml import etree

# 通过url获取每个帖子链接

def getArticleLinks(url):

    html = requests.get(url)

    Selector = etree.HTML(html.text)

    # 通过Xpath 获取每个帖子的url后缀

    url_list = Selector.xpath('//div[@class="threadlist_lz clearfix"]/div/a/@href')

    # 在每个后缀前加上百度贴吧的url前缀

    for i in range(len(url_list)):

        url_list[i] = 'http://tieba.baidu.com' + url_list[i]

    return url_list

# 通过所给帖子链接，下载帖子中所有图片

def get_img(url):

    html = requests.get(url)

    Selector = etree.HTML(html.text)

    img_url_list = Selector.xpath('//*[@class="BDE_Image"]/@src')

    pic_name = 0

    for each in img_url_list:

        urllib.urlretrieve(each, 'pic_%s.jpg' % pic_name)

        pic_name += 1

# 为每个帖子创建独立文件夹，并下载图片

def download_img(url_list,page):

    # 该目录下创建一个downloads文件夹存放下载图片

    if not os.path.exists('downloads'):

        os.mkdir('downloads')

    root_path = os.getcwd()

    for i in range(page):

        img_dir = 'downloads/' + url_list[i][23:].replace("/", '')

        if not os.path.exists(img_dir):

            os.mkdir(img_dir)

        os.chdir(img_dir)

        get_img(url_list[i])

        os.chdir(root_path)

if __name__ == '__main__':

    print u'-----贴吧图片爬取装置2.0-----'

    print u'请输入贴吧地址：',

    targetUrl = raw_input('')

    if not targetUrl:

        print u'---没有地址输入正在使用默认地址(baidu壁纸吧)---'

        targetUrl = 'http://tieba.baidu.com/f?kw=%E5%A3%81%E7%BA%B8&ie=utf-8'

    page = ''

    while True:

        print u'请输入你要下载的帖子数：',

        page = raw_input('')

        if re.findall(r'^[0-9]*[1-9][0-9]*$',page):

            page = int(page)

            break

    print u'----------正在下载图片---------'

    ArticleLinks = getArticleLinks(targetUrl)

    download_img(ArticleLinks,page)

    print u'-----------下载成功-----------'

    raw_input('Press Enter to exit')

界面：

不要脸的说自我感觉良好23333

结构是这样滴

内容（爬取的内容怎么和我不一样？我不管23333）

# 结尾的啪啪啪啪啪

Python爬虫02——贴吧图片爬虫V2.0的更多相关文章

【Python爬虫实战】图片爬虫-淘宝图片爬虫--千图网图片爬虫
所谓图片爬虫,就是从互联网中自动把对方服务器上的图片爬下来的爬虫程序.有些图片是直接在html文件里面,有些是隐藏在JS文件中,在html文件中只需要我们分析源码就能得到如果是隐藏在JS文件中,那么就 ...
python学习笔记（接口自动化框架 V2.0）
这个是根据上次框架版本进行的优化用python获取excel文件中测试用例数据通过requets测试接口.并使用正则表达式验证响应信息内容生成xml文件测试报告版本更新内容: 1. 整理了Cr ...
[py]python写一个通讯录step by step V3.0
python写一个通讯录step by step V3.0 参考: http://blog.51cto.com/lovelace/1631831 更新功能: 数据库进行数据存入和读取操作字典配合函数 ...
重要消息：MoviePy v2.0.0.dev1预发布版本已经可以下载安装使用
☞ ░ 前往老猿Python博文目录 ░ 刚刚得知,MoviePy v2.0.0.dev1版本已经预发布,据说解决了多语言支持及TextClip等一系列Bug,大家不妨升级使用.升级指令:pip in ...
[记录][python]python爬虫，下载某图片网站的所有图集
随笔仅用于学习交流,转载时请注明出处,http://www.cnblogs.com/CaDevil/p/5958770.html 该随笔是记录我的第一个python程序,一个爬去指定图片站点的所有图集 ...
python scrapy版极客学院爬虫V2
python scrapy版极客学院爬虫V2 1 基本技术使用scrapy 2 这个爬虫的难点是 Request中的headers和cookies 尝试过好多次才成功(模拟登录),否则只能抓免费课 ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
python写的百度图片爬虫
学了一下python正则表达式,写一个百度图片爬虫玩玩. 当技术遇上心术不正的人,就成我这样的2B青年了. python3.6开发.程序已经打包好,下载地址: http://pan.baidu.com ...
Python图片爬虫
1.今天给大家介绍自己写的一个图片爬虫,说白了就是从网页自动上下载需要的图片 2.首先选取目标为:http://www.zhangzishi.cc/涨姿势这个网站如下图,我们的目标就是爬取该网站福利社 ...

随机推荐

Spring基础学习(五)—事务管理
一.事务基本认识 1.事务的概述为了保证数据库中数据的一致性,数据的操作应当是离散的成组的逻辑单元.当它全部完成时,数据的一致性可以保持,而当这个单元中的一部分操作失败,整个事务应当全部视 ...
深入解析Hashtable、Dictionary、SortedDictionary、SortedList
我们先看Hashtable. MSDN的解释:表示键/值对的集合,这些键/值对根据键的哈希代码进行组织. Hash算法是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定 ...
js 解析本地Excel文件！
通常,一般读取Excel都是由后台来处理,不过如果需求要前台来处理,也是可以的.. 1.需要用到js-xlsx,下载地址:js-xlsx 2.demo: <!DOCTYPE html>&l ...
MySQL之改_update
MySQL增删改查之改_update UPDATE语句进行数据记录的更新. 1.更新单个表中的值语法: UPDATE [IGNORE] table_reference SET col_name1= ...
python自动化测试应用-第6篇（WEB测试）--Selenium元素篇
篇6 python自动化测试应用-Selenium基础篇 --lamecho 1.1概要大家好!我是lamecho(辣么丑),上一篇我们搭建好p ...
Hadoop - 操作练习之单机配置 - Hadoop2.8.0/Ubuntu16.04
系统版本 anliven@Ubuntu1604:~$ uname -a Linux Ubuntu1604 4.8.0-36-generic #36~16.04.1-Ubuntu SMP Sun Feb ...
bzoj2876 [Noi2012]骑行川藏
Description 蛋蛋非常热衷于挑战自我,今年暑假他准备沿川藏线骑着自行车从成都前往拉萨.川藏线的沿途有着非常美丽的风景,但在这一路上也有着很多的艰难险阻,路况变化多端,而蛋蛋的体力十分有限,因 ...
关于Canvas Rect Transform 设置问题？
Render Mode: Screen Space - Overlay:将UI放置在场景的上面,调节场景大小或调整分辨率,则Canvas也会随之调整. Screen Space - Camera:Ca ...
STL容器之优先队列(转)
STL容器之优先队列原地址:http://www.cnblogs.com/summerRQ/articles/2470130.html 优先级队列,以前刷题的时候用的比较熟,现在竟然我只能记得它的关 ...
poj2594最小顶点覆盖+传递闭包
传递闭包最开始是在Floyd-Warshall算法里面出现的,当时这算法用的很少就被我忽视了.. 传递闭包是指如果i能到达k,并且k能到达j,那么i就能到达j Have you ever read a ...

Python爬虫02——贴吧图片爬虫V2.0

Python小爬虫——贴吧图片爬虫V2.0

思路：

帖子链接的爬取：

图片按文件夹下载：

交互：

Python爬虫02——贴吧图片爬虫V2.0的更多相关文章

随机推荐

热门专题