以前看到网上别人说写程序抓取网页图片的,感觉挺神奇,心想什么时候我自己也写一个抓取图片的方法!

刚好这两天没什么事,就参考了网上一个php抓取图片代码,重点借鉴了 匹配img标签和其src属性正则的写法,
封装了一个php远程抓取图片的类,测试了一下,速度还凑合, 两分钟从 开源中国 抓取了 110多张图片

代码如下:

<?php

/**
* 一个用于抓取图片的类
*
* @package default
* @author WuJunwei
*/
class download_image
{ public $save_path; //抓取图片的保存地址 //抓取图片的大小限制(单位:字节) 只抓比size比这个限制大的图片
public $img_size=0; //定义一个静态数组,用于记录曾经抓取过的的超链接地址,避免重复抓取
public static $a_url_arr=array(); /**
* @param String $save_path 抓取图片的保存地址
* @param Int $img_size 抓取图片的保存地址
*/
public function __construct($save_path,$img_size)
{
$this->save_path=$save_path;
$this->img_size=$img_size;
} /**
* 递归下载抓取首页及其子页面图片的方法 ( recursive 递归)
*
* @param String $capture_url 用于抓取图片的网址
*
*/
public function recursive_download_images($capture_url)
{
if (!in_array($capture_url,self::$a_url_arr)) //没抓取过
{
self::$a_url_arr[]=$capture_url; //计入静态数组
} else //抓取过,直接退出函数
{
return;
} $this->download_current_page_images($capture_url); //下载当前页面的所有图片 //用@屏蔽掉因为抓取地址无法读取导致的warning错误
$content=@file_get_contents($capture_url); //匹配a标签href属性中?之前部分的正则
$a_pattern = "|<a[^>]+href=['\" ]?([^ '\"?]+)['\" >]|U";
preg_match_all($a_pattern, $content, $a_out, PREG_SET_ORDER); $tmp_arr=array(); //定义一个数组,用于存放当前循环下抓取图片的超链接地址
foreach ($a_out as $k => $v)
{
/**
* 去除超链接中的 空'','#','/'和重复值
* 1: 超链接地址的值 不能等于当前抓取页面的url, 否则会陷入死循环
* 2: 超链接为''或'#','/'也是本页面,这样也会陷入死循环,
* 3: 有时一个超连接地址在一个网页中会重复出现多次,如果不去除,会对一个子页面进行重复下载)
*/
if ( $v[1] && !in_array($v[1],self::$a_url_arr) &&!in_array($v[1],array('#','/',$capture_url) ) )
{
$tmp_arr[]=$v[1];
}
} foreach ($tmp_arr as $k => $v)
{
//超链接路径地址
if ( strpos($v, 'http://')!==false ) //如果url包含http://,可以直接访问
{
$a_url = $v;
}else //否则证明是相对地址, 需要重新拼凑超链接的访问地址
{
$domain_url = substr($capture_url, 0,strpos($capture_url, '/',8)+1);
$a_url=$domain_url.$v;
} $this->recursive_download_images($a_url); } } /**
* 下载当前网页下的所有图片
*
* @param String $capture_url 用于抓取图片的网页地址
* @return Array 当前网页上所有图片img标签url地址的一个数组
*/
public function download_current_page_images($capture_url)
{
$content=@file_get_contents($capture_url); //屏蔽warning错误 //匹配img标签src属性中?之前部分的正则
$img_pattern = "|<img[^>]+src=['\" ]?([^ '\"?]+)['\" >]|U";
preg_match_all($img_pattern, $content, $img_out, PREG_SET_ORDER); $photo_num = count($img_out);
//匹配到的图片数量
echo '<h1>'.$capture_url . "共找到 " . $photo_num . " 张图片</h1>";
foreach ($img_out as $k => $v)
{
$this->save_one_img($capture_url,$v[1]);
}
} /**
* 保存单个图片的方法
*
* @param String $capture_url 用于抓取图片的网页地址
* @param String $img_url 需要保存的图片的url
*
*/
public function save_one_img($capture_url,$img_url)
{
//图片路径地址
if ( strpos($img_url, 'http://')!==false )
{
// $img_url = $img_url;
}else
{
$domain_url = substr($capture_url, 0,strpos($capture_url, '/',8)+1);
$img_url=$domain_url.$img_url;
}
$pathinfo = pathinfo($img_url); //获取图片路径信息
$pic_name=$pathinfo['basename']; //获取图片的名字
if (file_exists($this->save_path.$pic_name)) //如果图片存在,证明已经被抓取过,退出函数
{
echo $img_url . '<span style="color:red;margin-left:80px">该图片已经抓取过!</span><br/>';
return;
}
//将图片内容读入一个字符串
$img_data = @file_get_contents($img_url); //屏蔽掉因为图片地址无法读取导致的warning错误
if ( strlen($img_data) > $this->img_size ) //下载size比限制大的图片
{
$img_size = file_put_contents($this->save_path . $pic_name, $img_data);
if ($img_size)
{
echo $img_url . '<span style="color:green;margin-left:80px">图片保存成功!</span><br/>';
} else
{
echo $img_url . '<span style="color:red;margin-left:80px">图片保存失败!</span><br/>';
}
} else
{
echo $img_url . '<span style="color:red;margin-left:80px">图片读取失败!</span><br/>';
}
}
} // END set_time_limit(120); //设置脚本的最大执行时间 根据情况设置
$download_img=new download_image('E:/images/',0); //实例化下载图片对象
$download_img->recursive_download_images('http://www.oschina.net/'); //递归抓取图片方法
//$download_img->download_current_page_images($_POST['capture_url']); //只抓取当前页面图片方法 ?>

php远程抓取网站图片并保存的更多相关文章

  1. Python入门-编写抓取网站图片的爬虫-正则表达式

    //生命太短 我用Python! //Python真是让一直用c++的村里孩子长知识了! 这个仅仅是一个测试,成功抓取了某网站1000多张图片. 下一步要做一个大新闻 大工程 #config = ut ...

  2. Python:爬取网站图片并保存至本地

    Python:爬取网页图片并保存至本地 python3爬取网页中的图片到本地的过程如下: 1.爬取网页 2.获取图片地址 3.爬取图片内容并保存到本地 实例:爬取百度贴吧首页图片. 代码如下: imp ...

  3. python网络爬虫抓取网站图片

    本文介绍两种爬取方式: 1.正则表达式 2.bs4解析Html 以下为正则表达式爬虫,面向对象封装后的代码如下: import urllib.request # 用于下载图片 import os im ...

  4. 使用python来批量抓取网站图片

    今天"无意"看美女无意溜达到一个网站,发现妹子多多,但是可恨一个page只显示一张或两张图片,家里WiFi也难用,于是发挥"程序猿"的本色,写个小脚本,把图片扒 ...

  5. php 文件操作之抓取网站图片

    $str= file_get_contents("http://v.qq.com/");preg_match_all("/\<img\s+src=.*\s*\> ...

  6. 利用wget 抓取 网站网页 包括css背景图片

    利用wget 抓取 网站网页 包括css背景图片 wget是一款非常优秀的http/ftp下载工具,它功能强大,而且几乎所有的unix系统上都有.不过用它来dump比较现代的网站会有一个问题:不支持c ...

  7. webmagic 二次开发爬虫 爬取网站图片

    webmagic的是一个无须配置.便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫. webmagic介绍 编写一个简单的爬虫 webmagic的使用文档:http://w ...

  8. 使用PHP抓取网站ico图标

    网站许久没用更新,以后会经常更新,本次分享一个使用PHP抓取网站ico的程序,提供一个网站列表后对网站的ico进行下载抓取,具体代码如下: <?php /** * 更新热站ico * gao 2 ...

  9. Python3简单爬虫抓取网页图片

    现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...

随机推荐

  1. Daily Scrum – 1/7

    Meeting Minutes 搞定了一个bug,单词面板滚动条的bug: 在电脑屏幕上的屏幕适配有了新思路: Progress   part 组员 今日工作 Time (h) 明日计划 Time ( ...

  2. NLP的两种工具的java版使用:复旦FudanNLP,中科院计算所ICTCLAS2013

    编程语言:java 三种工具的简要介绍: FudanNLP google project上的介绍是: FudanNLP主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集 ...

  3. org.hibernate.PropertyValueException: not-null property references a null or transient value:

    org.hibernate.PropertyValueException: not-null property references a null or transient value: com.bj ...

  4. Spring配置文件详解:<context:annotation-config/>和<context:component-scan base-package=""/>和<mvc:annotation-driven />

    <context:annotation-config/> 在基于主机方式配置Spring时,Spring配置文件applicationContext.xml,你可能会见<contex ...

  5. .net架构设计读书笔记--第三章 第10节 命令职责分离(CQRS)简介(Introducing CQRS)

    一.分离查询命令 Separating commands from queries     早期的面向DDD设计方法的难点是如何设计一个类,这个类要包含域的方方面面.通常来说,任务软件系统方法调用可以 ...

  6. grunt安装_

    grunt_构建WEBJS程序框架,. package.json是文件配置 ====〉〉〉〉 在Gruntfile.js里面会引用到. //目录下直接放node的东西 ,比如: node_module ...

  7. jquery 插件之 点赞“+1” 特效

    一般用户点个赞后,都会有个 +1 的特效飘过,用户已经点过赞了,会有“已点过赞”的特效提示 在这里,我们写了一个点赞的插件 //扩展对象点赞插件.点赞特效 //用法:jQuery('.praisebt ...

  8. 桂电在linux环境下使用出校器

    一.官方出校器(无界面) 由于学校官方最新的linux版出校器无效,我们只能使用老版本的出校器了. 但因为老版本的出校器是32位的,而现在主流使用的是64位系统,因此我们得安装32位库. 在ubunt ...

  9. nginx&apache比较

    1.nginx相对于apache的优点: 轻量级,同样起web 服务,比apache占用更少的内存及资源 抗并发,nginx 处理请求是异步非阻塞的,而apache 则是阻塞型的,在高并发下nginx ...

  10. 创建泛类集合List以及数组转集合,集合转数组的应用

    List<int> list = new List<int>(); list.Add(); list.Add(); list.Add(); list.AddRange(, , ...