Python 爬虫学习网页图片下载

使用正则表达式匹配

# coding:utf-8

import  re

import urllib

def get_content(url):

    """ Evilxr, """

    html = urllib.urlopen(url)

    content = html.read()

    html.close()

    return content

def get_images(info):

    """" Download Baidu pictures.

    <img class="BDE_Image" src="http:*****">

    """

    regex = r' class="BDE_Image" src="(.+?\.jpg)" '

    pat = re.compile(regex)

    images_code = re.findall(pat, info)

    i = 0

    for image_url in images_code:

        print image_url

        urllib.urlretrieve(image_url, '%s.jpg' % i)

        i = i +1

    print len(images_code)

info = get_content("http://tieba.baidu.com/p/2299704181")

print get_images(info)

使用第三方库BeautifulSoup匹配

# 安装 sudo pip install beautifulsoup4

# coding:utf-8

import urllib

from bs4 import BeautifulSoup

def get_content(url):

    """ Evilxr, """

    html = urllib.urlopen(url)

    content = html.read()

    html.close()

    return content

def get_images(info):

    """

     使用BeautifulSoup在网页源码中匹配图片地址

    """

    soup = BeautifulSoup(info)

    all_img = soup.find_all('img', class_="BDE_Image" )

    i = 1

    for img in all_img:

        print img['src']

        urllib.urlretrieve(img['src'], '%s.jpg' % i)

        i = i +1

    print "一共下载了 ", len(all_img), "张图片"

info = get_content("http://tieba.baidu.com/p/3368845086")

print get_images(info)

Python 爬虫学习网页图片下载的更多相关文章

Python爬虫之网页图片抓取
一.引入这段时间一直在学习Python的东西,以前就听说Python爬虫多厉害,正好现在学到这里,跟着小甲鱼的Python视频写了一个爬虫程序,能实现简单的网页图片下载. 二.代码 __author ...
python爬虫学习(1) —— 从urllib说起
0. 前言如果你从来没有接触过爬虫,刚开始的时候可能会有些许吃力因为我不会从头到尾把所有知识点都说一遍,很多文章主要是记录我自己写的一些爬虫所以建议先学习一下cuiqingcai大神的 Pyth ...
Python实战：美女图片下载器，海量图片任你下载
Python应用现在如火如荼,应用范围很广.因其效率高开发迅速的优势,快速进入编程语言排行榜前几名.本系列文章致力于可以全面系统的介绍Python语言开发知识和相关知识总结.希望大家能够快速入门并学习 ...
Python实战：Python爬虫学习教程，获取电影排行榜
Python应用现在如火如荼,应用范围很广.因其效率高开发迅速的优势,快速进入编程语言排行榜前几名.本系列文章致力于可以全面系统的介绍Python语言开发知识和相关知识总结.希望大家能够快速入门并学习 ...
python爬虫学习视频资料免费送，用起来非常666
当我们浏览网页的时候,经常会看到像下面这些好看的图片,你是否想把这些图片保存下载下来. 我们最常规的做法就是通过鼠标右键,选择另存为.但有些图片点击鼠标右键的时候并没有另存为选项,或者你可以通过截图工 ...
Python爬虫学习：四、headers和data的获取
之前在学习爬虫时,偶尔会遇到一些问题是有些网站需要登录后才能爬取内容,有的网站会识别是否是由浏览器发出的请求. 一.headers的获取就以博客园的首页为例:http://www.cnblogs.c ...
python爬虫学习笔记（一）——环境配置（windows系统）
在进行python爬虫学习前,需要进行如下准备工作: python3+pip官方配置 1.Anaconda(推荐,包括python和相关库) [推荐地址:清华镜像] https://mirrors ...
python爬虫学习01--电子书爬取
python爬虫学习01--电子书爬取 1.获取网页信息 import requests #导入requests库 ''' 获取网页信息 ''' if __name__ == '__main__': ...
python爬虫抓网页的总结
python爬虫抓网页的总结更多 python 爬虫学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自 ...

随机推荐

深入浅出设计模式——策略模式（Strategy Pattern）
模式动机完成一项任务,往往可以有多种不同的方式,每一种方式称为一个策略,我们可以根据环境或者条件的不同选择不同的策略来完成该项任务.在软件开发中也常常遇到类似的情况,实现某一个功能有多个途径,此时可 ...
《BI项目笔记》历年理化指标分析Cube的建立
该系统属于数据仓库系统,与传统的管理信息系统有本质差别,是“面向主题”设计的.“面向主题”的方式,既有利于数据组织和利用,又有利于用户的理解和使用. 分析主题主要维度:烟叶级别.烟叶级别按等级信息.烟 ...
如何有效使用Project（1）——编制进度计划、保存基准
1.前言: 软件产品的研发.升级.定制等,一般都是以项目的形式进行,此时项目进度计划以及资源使用情况就变成了项目经理关注的重点.如何让项目计划有效可控,及时暴露问题?如何查看资源的负荷情况,看资源分配 ...
并发编程 06—— CompletionService ：Executor 和 BlockingQueue
Java并发编程实践目录并发编程 01—— ThreadLocal 并发编程 02—— ConcurrentHashMap 并发编程 03—— 阻塞队列和生产者-消费者模式并发编程 04—— 闭 ...
Javascript之链式运动框架1
第一部分:HTML内容: <script src="6-1.js"></script> <script> window.onload=funct ...
0525Scram项目6.0
一.任务完成情况: 主界面基本完成,虽然界面看起来不是很美观,也比较简洁,但是这是我们一起商讨,各自找素材,找图片.还有一些动态的! 燃尽图: 二.界面演示: 三. 任务看板: 四.Spring1回顾 ...
Linux I2C总线控制器驱动(S3C2440)
s3c2440的i2c控制器驱动(精简DIY),直接上代码,注释很详细: #include <linux/kernel.h> #include <linux/module.h> ...
定时调度框架Quartz随笔
最近项目中的定时批处理用到了quartz定时任务,在此记录下quartz的配置吧,一个小demo仅供参考,也方便自己今后复习! 下面直接来步骤吧! 一.首先,要搭起能让quartz正常运行的环境,至少 ...
JS判断是否已经到达页面底部
$(window).scroll(function(){ var scrollTop=$(this).scrollTop(); var scrollHeight=$(document).height( ...
Xcode真机测试could not find developer disk image解决方法（支持iOS9.2）
这个问题开发者经常碰到,因为当我们更新手机iOS版本的时候,可能我们开发人员因为项目的需要等原因并一定愿意更新xcode到最新版本.但是老版本的xcode极有可能不支持最新的iOS版本,也有一些旧的i ...

Python 爬虫学习 网页图片下载

Python 爬虫学习 网页图片下载的更多相关文章

随机推荐

热门专题

Python 爬虫学习网页图片下载

Python 爬虫学习网页图片下载的更多相关文章