php远程抓取网站图片并保存

以前看到网上别人说写程序抓取网页图片的,感觉挺神奇,心想什么时候我自己也写一个抓取图片的方法!

刚好这两天没什么事,就参考了网上一个php抓取图片代码,重点借鉴了匹配img标签和其src属性正则的写法,
封装了一个php远程抓取图片的类,测试了一下,速度还凑合, 两分钟从开源中国抓取了 110多张图片

代码如下:

<?php

/**

 * 一个用于抓取图片的类

 *

 * @package default

 * @author  WuJunwei

 */

class download_image

{

    public $save_path;                  //抓取图片的保存地址

    //抓取图片的大小限制(单位:字节) 只抓比size比这个限制大的图片

    public $img_size=0; 

    //定义一个静态数组,用于记录曾经抓取过的的超链接地址,避免重复抓取

    public static $a_url_arr=array();   

    /**

     * @param String $save_path    抓取图片的保存地址

     * @param Int    $img_size     抓取图片的保存地址

     */

    public function __construct($save_path,$img_size)

    {

        $this->save_path=$save_path;

        $this->img_size=$img_size;

    }

    /**

     * 递归下载抓取首页及其子页面图片的方法  ( recursive 递归)

     *

     * @param   String  $capture_url  用于抓取图片的网址

     *

     */

    public function recursive_download_images($capture_url)

    {

        if (!in_array($capture_url,self::$a_url_arr))   //没抓取过

        {

            self::$a_url_arr[]=$capture_url;   //计入静态数组

        } else   //抓取过,直接退出函数

        {

            return;

        }        

        $this->download_current_page_images($capture_url);  //下载当前页面的所有图片

        //用@屏蔽掉因为抓取地址无法读取导致的warning错误

        $content=@file_get_contents($capture_url); 

        //匹配a标签href属性中?之前部分的正则

        $a_pattern = "|<a[^>]+href=['\" ]?([^ '\"?]+)['\" >]|U";

        preg_match_all($a_pattern, $content, $a_out, PREG_SET_ORDER);

        $tmp_arr=array();  //定义一个数组,用于存放当前循环下抓取图片的超链接地址

        foreach ($a_out as $k => $v)

        {

            /**

             * 去除超链接中的 空'','#','/'和重复值

             * 1: 超链接地址的值 不能等于当前抓取页面的url, 否则会陷入死循环

             * 2: 超链接为''或'#','/'也是本页面,这样也会陷入死循环,

             * 3: 有时一个超连接地址在一个网页中会重复出现多次,如果不去除,会对一个子页面进行重复下载)

             */

            if ( $v[1] && !in_array($v[1],self::$a_url_arr) &&!in_array($v[1],array('#','/',$capture_url) ) )

            {

                $tmp_arr[]=$v[1];

            }

        }

        foreach ($tmp_arr as $k => $v)

        {

            //超链接路径地址

            if ( strpos($v, 'http://')!==false ) //如果url包含http://,可以直接访问

            {

                $a_url = $v;

            }else   //否则证明是相对地址, 需要重新拼凑超链接的访问地址

            {

                $domain_url = substr($capture_url, 0,strpos($capture_url, '/',8)+1);

                $a_url=$domain_url.$v;

            }

            $this->recursive_download_images($a_url);

        }

    }  

    /**

     * 下载当前网页下的所有图片

     *

     * @param   String  $capture_url  用于抓取图片的网页地址

     * @return  Array   当前网页上所有图片img标签url地址的一个数组

     */

    public function download_current_page_images($capture_url)

    {

        $content=@file_get_contents($capture_url);   //屏蔽warning错误

		//匹配img标签src属性中?之前部分的正则

		$img_pattern = "|<img[^>]+src=['\" ]?([^ '\"?]+)['\" >]|U";

        preg_match_all($img_pattern, $content, $img_out, PREG_SET_ORDER);

		$photo_num = count($img_out);

        //匹配到的图片数量

        echo '<h1>'.$capture_url . "共找到 " . $photo_num . " 张图片</h1>";

        foreach ($img_out as $k => $v)

        {

            $this->save_one_img($capture_url,$v[1]);

        }

    }

    /**

     * 保存单个图片的方法

     *

     * @param String $capture_url   用于抓取图片的网页地址

     * @param String $img_url       需要保存的图片的url

     *

     */

    public function save_one_img($capture_url,$img_url)

    {

        //图片路径地址

        if ( strpos($img_url, 'http://')!==false )

        {

            // $img_url = $img_url;

        }else

        {

            $domain_url = substr($capture_url, 0,strpos($capture_url, '/',8)+1);

            $img_url=$domain_url.$img_url;

        }

        $pathinfo = pathinfo($img_url);    //获取图片路径信息

        $pic_name=$pathinfo['basename'];   //获取图片的名字

        if (file_exists($this->save_path.$pic_name))  //如果图片存在,证明已经被抓取过,退出函数

        {

            echo $img_url . '<span style="color:red;margin-left:80px">该图片已经抓取过!</span><br/>';

            return;

        }

        //将图片内容读入一个字符串

        $img_data = @file_get_contents($img_url);   //屏蔽掉因为图片地址无法读取导致的warning错误

        if ( strlen($img_data) > $this->img_size )   //下载size比限制大的图片

        {

            $img_size = file_put_contents($this->save_path . $pic_name, $img_data);

            if ($img_size)

            {

                echo $img_url . '<span style="color:green;margin-left:80px">图片保存成功!</span><br/>';

            } else

            {

                echo $img_url . '<span style="color:red;margin-left:80px">图片保存失败!</span><br/>';

            }

        } else

        {

            echo $img_url . '<span style="color:red;margin-left:80px">图片读取失败!</span><br/>';

        }

    }

} // END

set_time_limit(120);     //设置脚本的最大执行时间  根据情况设置

$download_img=new download_image('E:/images/',0);   //实例化下载图片对象

$download_img->recursive_download_images('http://www.oschina.net/');      //递归抓取图片方法

//$download_img->download_current_page_images($_POST['capture_url']);     //只抓取当前页面图片方法

?>

php远程抓取网站图片并保存的更多相关文章

Python入门-编写抓取网站图片的爬虫-正则表达式
//生命太短我用Python! //Python真是让一直用c++的村里孩子长知识了! 这个仅仅是一个测试,成功抓取了某网站1000多张图片. 下一步要做一个大新闻大工程 #config = ut ...
Python：爬取网站图片并保存至本地
Python:爬取网页图片并保存至本地 python3爬取网页中的图片到本地的过程如下: 1.爬取网页 2.获取图片地址 3.爬取图片内容并保存到本地实例:爬取百度贴吧首页图片. 代码如下: imp ...
python网络爬虫抓取网站图片
本文介绍两种爬取方式: 1.正则表达式 2.bs4解析Html 以下为正则表达式爬虫,面向对象封装后的代码如下: import urllib.request # 用于下载图片 import os im ...
使用python来批量抓取网站图片
今天"无意"看美女无意溜达到一个网站,发现妹子多多,但是可恨一个page只显示一张或两张图片,家里WiFi也难用,于是发挥"程序猿"的本色,写个小脚本,把图片扒 ...
php 文件操作之抓取网站图片
$str= file_get_contents("http://v.qq.com/");preg_match_all("/\<img\s+src=.*\s*\> ...
利用wget 抓取网站网页包括css背景图片
利用wget 抓取网站网页包括css背景图片 wget是一款非常优秀的http/ftp下载工具,它功能强大,而且几乎所有的unix系统上都有.不过用它来dump比较现代的网站会有一个问题:不支持c ...
webmagic 二次开发爬虫爬取网站图片
webmagic的是一个无须配置.便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫. webmagic介绍编写一个简单的爬虫 webmagic的使用文档:http://w ...
使用PHP抓取网站ico图标
网站许久没用更新,以后会经常更新,本次分享一个使用PHP抓取网站ico的程序,提供一个网站列表后对网站的ico进行下载抓取,具体代码如下: <?php /** * 更新热站ico * gao 2 ...
Python3简单爬虫抓取网页图片
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...

随机推荐

JS事件学习笔记（思维导图）
导图
F12调试打开时，出现很多多余内容问题解决
关闭vs2013的browserlink功能即可: <appSettings> <add key="vs:EnableBrowserLink" value=&qu ...
微信WeixinJSBridge API
<!DOCTYPE html><html> <head> <title>微信WeixinJSBridge API</title> <m ...
每天一个linux命令（13）：tail 命令
tail 命令从指定点开始将文件写到标准输出.使用tail命令的-f选项可以方便的查阅正在改变的日志文件,tail -f filename会把filename里最尾部的内容显示在屏幕上,并且不但刷新, ...
”耐撕“团队 2016.3.21 站立会议3 2 1 GO！
”耐撕“团队 2016.3.21 站立会议时间:2016.3.21 ① 17:20-17:45 ②17:55-18:10 总计40分钟成员: Z 郑蕊 * 组长 (博客:http://www ...
Calender的使用详解
Calendar和GregorianCalendar简介 Calendar的中文翻译是日历,实际上,在历史上有着许多种计时的方法.所以为了计时的统一,必需指定一个日历的选择.那现在最为普及和通用的日历 ...
Windows下一些配置信息
VC.VS和.NetFramework版本对应关系 VC6.0对应VS 6.0 VC7.0对应VS 2002 VC7.1对应VS 2003 .Net Framework1.0/1.1 VC8.0对应V ...
洛谷P1363 幻想迷宫
题目描述背景 Background (喵星人LHX和WD同心协力击退了汪星人的入侵,不幸的是,汪星人撤退之前给它们制造了一片幻象迷宫.) WD:呜呜,肿么办啊…… LHX:momo...我们一定能走 ...
NOIP2008普及组题解
NOIP2008普及组题解从我在其他站的博客直接搬过来的 posted @ 2016-04-16 01:11 然后我又搬回博客园了233333 posted @ 2016-06-05 19:19 T ...
SCU 4424（求子集排列数）
A - A Time Limit:0MS Memory Limit:0KB 64bit IO Format:%lld & %llu Submit Status Practice ...

php远程抓取网站图片并保存

php远程抓取网站图片并保存的更多相关文章

随机推荐

热门专题