使用php实现爬虫程序套取网站的图片实例

<?php

//去采集a67 图片 网站链接 http://www.xiamov.com/list/1/p.2  你也可以采集其他网站的图片

//创建链接 dedecms--a67


//设置执行不超时

set_time_limit(0);
//fsockopen() 函数 第一个参数是指主机 第二个参数指的是端口号 一般我们默认为80端口 第三个参数是错误编号  第四个参数是返回错误的字符串  第五个参数指的是链接时长 我上面写的是30秒 如果30秒没有链接到对方主机 则会返回链接失败

$conn=fsockopen("www.xiamov.com",80,$errno,$errstr,30);

if(!$conn){

	die("链接失败");

}

//说话  协议

$httpstr="GET /list/1/p.2 HTTP/1.1\r\n";

$httpstr.="Host: www.xiamov.com\r\n";

$httpstr.="Connection: Close\r\n\r\n";

//发送http请求 对方就应该有回应

fwrite($conn,$httpstr,strlen($httpstr));

//看看a67 网站会送的是什么东西

$res="";

while(!feof($conn)){

	$res.=fread($conn,1024);

}

fclose($conn);

//file_put_contents("D:/1.txt", $res);

//echo $res;

//我要找到该页面的图片资源 img src

//<img alt="邪恶小分队下载" title="邪恶小分队下载" src="http://img.xiamov.com/vod/2016-07/578e2cc52da30.jpg">

$reg1='/<img alt="[^"]*" title="[^"]*" src="([^"]*)"/i'; //这个是匹配上面的<img 的正则表达式 [^"]* 这个表示的是 只要不是“ 就不断匹配 这个很常用 可以学习

preg_match_all($reg1,$res,$arr1);

//把$arr1[1]遍历  并取出各个图片的uri

foreach($arr1[1] as $imgurl){

	//echo"<br/>".$imgurl;

	$imguri=str_replace("http://img.xiamov.com","",$imgurl);

	//echo"<br/>".$imguri;

	//再次发出请求 要图片  注意 这里的主机发生变化了 主机变化为img.xiamov.com

	$conn=fsockopen("img.xiamov.com",80,$errno,$errstr,30);

	//组织httpstr

	$httpstr="GET $imguri HTTP/1.1\r\n";

$httpstr.="Host: img.xiamov.com\r\n";

$httpstr.="Connection: Close\r\n\r\n";

//发出请求 img

fwrite($conn,$httpstr,strlen($httpstr));

$res2="";

while(!feof($conn)){

	$res2.=fread($conn,1024);

}

fclose($conn);

//看看$res2是什么

//file_put_contents("D:/1.txt", $res2);

//exit();

//我们把图片的数据从$res2截取出来 保存成图片

$pos=strpos($res2,"\r\n\r\n");

$imgres=substr($res2,$pos+4);  //后面加的数字很重要 这个数字4 是本人不断测试才得到的

$fileinfo=pathinfo($imguri);

file_put_contents("./myimages/".$fileinfo['basename'], $imgres);

//die;

sleep(2);  //我们可以使用sleep函数 来延迟发送请求

}

die("成功取回图片");

　　以上是采取A67电影网中电影列表的部分图片通过以上的爬取程序我们就可以爬取任何网站的图片了

使用php实现爬虫程序套取网站的图片实例的更多相关文章

开发记录_自学Python写爬虫程序爬取csdn个人博客信息
每天刷开csdn的博客,看到一整个页面,其实对我而言,我只想看看访问量有没有上涨而已... 于是萌生了一个想法: 想写一个爬虫程序把csdn博客上边的访问量和评论数都爬下来. 打算通过网络各种搜集资料 ...
一个简单的python爬虫程序
python|网络爬虫概述这是一个简单的python爬虫程序,仅用作技术学习与交流,主要是通过一个简单的实际案例来对网络爬虫有个基础的认识. 什么是网络爬虫简单的讲,网络爬虫就是模拟人访问web ...
python网络爬虫 - 如何伪装逃过反爬虫程序
有的时候,我们本来写得好好的爬虫代码,之前还运行得Ok, 一下子突然报错了. 报错信息如下: Http 800 Internal internet error 这是因为你的对象网站设置了反爬虫程序,如 ...
爬虫浅谈一：一个简单c#爬虫程序
这篇文章只是简单展示一个基于HTTP请求如何抓取数据的文章,如觉得简单的朋友,后续我们再慢慢深入研究探讨. 图1: 如图1,我们工作过程中,无论平台网站还是企业官网,总少不了新闻展示.如某天产品经理跟 ...
Scrapy：运行爬虫程序的方式
Windows 10家庭中文版,Python 3.6.4,Scrapy 1.5.0, 在创建了爬虫程序后,就可以运行爬虫程序了.Scrapy中介绍了几种运行爬虫程序的方式,列举如下: -命令行工具之s ...
Scrapy：创建爬虫程序的方式
Windows 10家庭中文版,Python 3.6.4,Scrapy 1.5.0, 在Scrapy中,建立爬虫程序或项目的方式有两种(在孤读过Scrapy的大部分文档后): 1.继承官方Spider ...
第一个get请求的爬虫程序
一:urllib库: urllib是Python自带的一个用于爬虫的库,器主要作用就是可以通过代码模拟浏览器发送请求.其被用到子模块在Python3中的urllib.request和urllib.pa ...
Android网络爬虫程序（基于Jsoup）
摘要:基于 Jsoup 实现一个 Android 的网络爬虫程序,抓取网页的内容并显示出来.写这个程序的主要目的是抓取海投网的宣讲会信息(公司.时间.地点)并在移动端显示,这样就可以随时随地的浏览在学 ...
一个简单的C#爬虫程序
这篇这篇文章主要是展示了一个C#语言如何抓取网站中的图片.实现原理就是基于http请求.C#给我们提供了HttpWebRequest和WebClient两个对象,方便发送请求获取数据,下面看如何实 1 ...

随机推荐

zoj 3659 Conquer a New Region(并查集)
题目链接:http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemId=4882 代码: #include<cstdio> #inc ...
poj 2479 Maximum sum (最大字段和的变形)
题目链接:http://poj.org/problem?id=2479 #include<cstdio> #include<cstring> #include<iostr ...
HIBERNATE 01
2017年1月8日 {LJ?Dragon}[标题]Hibernate基础知识简介_01 {LJ?Dragon}[Links]Hibernate注解详解 {LJ?Dragon}[Daily]特种部队2, ...
C#类型分类： C# 2015-03-09 08:44 202人阅读评论(0) 收藏
C# 类型引言本文之初的目的是讲述设计模式中的 Prototype(原型)模式,但是如果想较清楚地弄明白这个模式,需要了解对象克隆(Object Clone),Clone其实也就是对象复制.复制又 ...
tableview: 实现tableview 的 section header 跟随tableview滑动
方法一:(只有一个headerView)一段如果你的tableview恰好只有一个headerView,实现这种效果就好办了.把要设置的headerView设置成tableView的header而不 ...
怎样安装两个tomcat，怎样配置
装两个tomcat 各自是6.0和7.0 可想执行tomcat6.0 可是实际上却执行tomcat7.0 两个版本号都是用解压缩包事实上就是不能执行tomcat6.0 仅仅能执行7.0 两个环境变量 ...
[转][JAVA]定时任务之-Quartz使用篇
[BAT][JAVA]定时任务之-Quartz使用篇定时任务之-Quartz使用篇 Quartz是OpenSymphony开源组织在Job scheduling领域又一个开源项目,它可以与J2EE与 ...
spin_lock & mutex_lock的差别?
本文由该问题引入到内核锁的讨论,归纳例如以下为什么须要内核锁? 多核处理器下,会存在多个进程处于内核态的情况,而在内核态下,进程是能够訪问全部内核数据的,因此要对共享数据进行保护,即相互排斥处理有 ...
MVVM之View和ViewModel的关联
概要: 将所有的VM在加载到Application的Static Resource中,然后在View中用标签指定. 实现: 1)采用特性指定要添加到StaticResource中的对象 public ...
Apache MINA 框架之默认session管理类实现
DefaultSocketSessionConfig 类 extends AbstractSocketSessionConfig extends AbstractIoSessionConfig imp ...

使用php实现爬虫程序 套取网站的图片实例

使用php实现爬虫程序 套取网站的图片实例的更多相关文章

随机推荐

热门专题

使用php实现爬虫程序套取网站的图片实例

使用php实现爬虫程序套取网站的图片实例的更多相关文章