使用python爬取百度贴吧内的图片

1. 首先通过urllib获取网页的源码

# 定义一个getHtml()函数

def getHtml(url):

    try:

        page = urllib.urlopen(url)  # urllib.urlopen()方法用于打开一个URL地址

        html = page.read()  # read()方法用于读取URL上的数据

    except Exception as e:

        html = ''

    return html

2. 获取下一页的url链接，当本页的图片链接获取完毕，再继续获取下一页的。使用Python正则表达式匹配需要的字段

# 得到下一页的url

def get_page_url(html):

    url_reg = r'<a href="(.*)">下一页</a>'

    url_pattern = re.compile(url_reg)

    fanye_urls = url_pattern.findall(html)

    fanye_url = 'https://tieba.baidu.com' + fanye_urls[0] if fanye_urls else ''

    return fanye_url

3. 获取每一页的图片链接，将之放入一个总的数组，最后通过链接下载图片

def getImg(html):

    img_reg = r'https://.[^\s]+?.jpg|https://.[^\s]+?.png'  # 正则表达式，得到图片地址

    img_pattern = re.compile(img_reg)  # re.compile() 可以把正则表达式编译成一个正则表达式对象.

    imgList = img_pattern.findall(html)  # img_pattern.findall() 方法读取html 中包含 img_reg（正则表达式）的  数据，数组形式

    return imgList

4. 下载图片。使用urllib.urlretrieve()方法，直接根据链接将图片下载到本地

def down_img(imgList):

    x = 0

    for imgUrl in imgList:

        try:

            # 核心是urllib.urlretrieve()方法,直接将远程数据下载到本地，图片通过x依次递增命名

            urllib.urlretrieve(imgUrl, 'E:\img\%s.jpg' % str(x + 1))

            print '成功下载第%s张图片时：%s' % (str(x + 1), str(imgUrl))

            x += 1

        except Exception as e:

            print '下载第%s张图片时失败：%s' % (str(x + 1), str(imgUrl))

            print e

            continue

    return imgList

5. 先爬取第一页的图片链接，然后通过while循环，继续读取第二页，.....，等到最后，将所有从网上爬取的图片链接使用extend()方法放入总的数组内，然后统一下载

all_img_urls = []

    # 得到网页源码

    html = getHtml("https://tieba.baidu.com/p/5407739329")

    fanye_url = get_page_url(html)

    # 得到图片链接的数组

    imgList = getImg(html)

    # 将imgList数组存入总的图片数组内

    all_img_urls.extend(imgList)

    fanye_count = 0  # 累计翻页数

    while 1:

        try:

            next_html = getHtml(fanye_url)

            fanye_url = get_page_url(next_html)

            next_imgList = getImg(next_html)

            fanye_count += 1

            print('第%s页' % fanye_count)

            all_img_urls.extend(next_imgList)

            if fanye_url == '' and next_imgList == []:

                print('已到最后一页, 开始下载：')

                break

        except Exception as e:

            print e

            continue

    down_img(all_img_urls)

总的代码如下：

# coding=utf-8

"""下载百度贴吧内的图片"""

import re

import urllib

# 定义一个getHtml()函数

def getHtml(url):

    try:

        page = urllib.urlopen(url)  # urllib.urlopen()方法用于打开一个URL地址

        html = page.read()  # read()方法用于读取URL上的数据

    except Exception as e:

        html = ''

    return html

# 得到下一页的url

def get_page_url(html):

    url_reg = r'<a href="(.*)">下一页</a>'

    url_pattern = re.compile(url_reg)

    fanye_urls = url_pattern.findall(html)

    fanye_url = 'https://tieba.baidu.com' + fanye_urls[0] if fanye_urls else ''

    return fanye_url

def getImg(html):

    img_reg = r'https://.[^\s]+?.jpg|https://.[^\s]+?.png'  # 正则表达式，得到图片地址

    img_pattern = re.compile(img_reg)  # re.compile() 可以把正则表达式编译成一个正则表达式对象.

    imgList = img_pattern.findall(html)  # img_pattern.findall() 方法读取html 中包含 img_reg（正则表达式）的  数据，数组形式

    return imgList

def down_img(imgList):

    x = 0

    for imgUrl in imgList:

        try:

            # 核心是urllib.urlretrieve()方法,直接将远程数据下载到本地，图片通过x依次递增命名

            urllib.urlretrieve(imgUrl, 'E:\img\%s.jpg' % str(x + 1))

            print '成功下载第%s张图片时：%s' % (str(x + 1), str(imgUrl))

            x += 1

        except Exception as e:

            print '下载第%s张图片时失败：%s' % (str(x + 1), str(imgUrl))

            print e

            continue

    return imgList

if __name__ == '__main__':

    all_img_urls = []

    # 得到网页源码

    html = getHtml("https://tieba.baidu.com/p/5407739329")

    fanye_url = get_page_url(html)

    # 得到图片链接的数组

    imgList = getImg(html)

    # 将imgList数组存入总的图片数组内

    all_img_urls.extend(imgList)

    fanye_count = 0  # 累计翻页数

    while 1:

        try:

            next_html = getHtml(fanye_url)

            fanye_url = get_page_url(next_html)

            next_imgList = getImg(next_html)

            fanye_count += 1

            print('第%s页' % fanye_count)

            all_img_urls.extend(next_imgList)

            if fanye_url == '' and next_imgList == []:

                print('已到最后一页, 开始下载：')

                break

        except Exception as e:

            print e

            continue

    down_img(all_img_urls)

使用python爬取百度贴吧内的图片的更多相关文章

Python——爬取百度百科关键词1000个相关网页
Python简单爬虫——爬取百度百科关键词1000个相关网页——标题和简介网站爬虫由浅入深:慢慢来分析: 链接的URL分析: 数据格式: 爬虫基本架构模型: 本爬虫架构: 源代码: # codin ...
python 爬取百度url
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-08-29 18:38:23 # @Author : EnderZhou (z ...
python爬取百度贴吧帖子
最近偶尔学下爬虫,放上第二个demo吧 #-*- coding: utf-8 -*- import urllib import urllib2 import re #处理页面标签类 class Too ...
爬虫实战(一) 用Python爬取百度百科
最近博主遇到这样一个需求:当用户输入一个词语时,返回这个词语的解释我的第一个想法是做一个数据库,把常用的词语和词语的解释放到数据库里面,当用户查询时直接读取数据库结果但是自己又没有心思做这样一个数 ...
假期学习【十一】Python爬取百度词条写入csv格式 python 2020.2.10
今天主要完成了根据爬取的txt文档,从百度分类从信息科学类爬取百度词条信息,并写入CSV格式文件. txt格式文件如图: 为自己爬取内容分词后的结果. 代码如下: import requests fr ...
python爬取百度搜索结果ur汇总
写了两篇之后,我觉得关于爬虫,重点还是分析过程分析些什么呢: 1)首先明确自己要爬取的目标比如这次我们需要爬取的是使用百度搜索之后所有出来的url结果 2)分析手动进行的获取目标的过程,以便以程序 ...
Python 爬虫练习：爬取百度贴吧中的图片
背景:最近开始看一些Python爬虫相关的知识,就在网上找了一些简单已与练习的一些爬虫脚本实现功能:1,读取用户想要爬取的贴吧 2,读取用户先要爬取某个贴吧的页数范围 3,爬取每个贴吧中用户输入的页 ...
python 爬取百度云资源
pan1 1 import urllib.request 2 import re 3 import random 4 5 def get_source(key): 6 7 print('请稍等,爬取中 ...
python爬取百度翻译返回：{'error': 997, 'from': 'zh', 'to': 'en', 'query 问题
解决办法: 修改url为手机版的地址:http://fanyi.baidu.com/basetrans User-Agent也用手机版的测试代码: # -*- coding: utf-8 -*- & ...

随机推荐

java数组去重
java数组去重 1.创建新数组,用于保存比较结果 2.设定随机数组最大最小值 3.开始去重 4.计算去重所需时间 package org.zheng.collection; import java. ...
图片放大功能如何做？jquery实现
花了很长时间撸了个网站,观点,其中需要一个图片放大功能,网上找了半天发现都没有中意的,最后无奈之下自己写了一个,演示地址,演示图片: 自我感觉效果还不错,现在分享开来给大家看看,哪里不好还请多多指教, ...
Git详解之三：Git分支
Git 分支几乎每一种版本控制系统都以某种形式支持分支.使用分支意味着你可以从开发主线上分离开来,然后在不影响主线的同时继续工作.在很多版本控制系统中,这是个昂贵的过程,常常需要创建一个源代码目录的 ...
在Maven Central发布中文API的Java库
原址: https://zhuanlan.zhihu.com/p/28024364 相关问题: 哪些Java库有中文命名的API? 且记下随想. 之前没有发布过, 看了SO上的推荐:Publish a ...
grep命令及基本正则表达式
grep命令是Linux系统中一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来. grep可用于shell脚本,因为grep通过返回一个状态值来说明搜索的状态,如果模板搜索成功 ...
Java的虚方法
虚方法出现在Java的多态特性中, 父类与子类之间的多态性,对父类的函数进行重新定义.如果在子类中定义某方法与其父类有相同的名称和参数,我们说该方法被重写 (Overriding).在Java中,子类 ...
使用nginx 的反向代理给 kibana加上basic的身份认证
第一步准备工作准备用户名密码: 更改host文件第二步,安装nginx ubuntu安装Nginx之后的文件结构大致为:所有的配置文件都在/etc/nginx下,并且每个虚拟主机已经安排在了/et ...
SQLServer 索引总结
测试案例: SET STATISTICS IO ON SET STATISTICS TIME ON SET STATISTICS PROFILE ON SELECT count(A.CarrierT ...
DBCC page 数据页堆底层数据分布大小计算
1.行的总大小: Row_Size = Fixed_Data_Size + Variable_Data_Size + Null_Bitmap + 4(4是指行标题开销) 开销定义: Fixed_Dat ...
javascript 之this指针-11
前言在<javascript 之执行环境-08>文中说到,当JavaScript代码执行一段可执行代码时,会创建对应的执行上下文(execution context).对于每个执行上下文 ...

使用python爬取百度贴吧内的图片

使用python爬取百度贴吧内的图片的更多相关文章

随机推荐

热门专题