PHP写的爬虫，爬指定网站页面上的各种图片

打算用php实现一个爬虫，这是爬指定页面的图片的一段程序，其他的部分还没调试好，先把这个放上来

 <?php

 $string=file_get_contents("http://www.baidu.com");

 echo 'size:'.strlen($string)."</br>";

 $length=strlen($string);

 searchImg($string,$length);

 function searchImg($string,$length){

     for ($i=0; $i <$length ; $i++) {

         if(($string[$i]=='s')&&($string[$i+1]=='r')&&($string[$i+2]=='c')){

             $index=$i;

             $scr=searchScr($index,$length,$string);//为“http://.......***”的格式

             $type=judgeType($scr);

             //

             if($type!="error"){

                 echo 'location:'.$index.'</br>';

                     echo 'scourse:'.$scr.'</br>';

                     echo 'type:'.$type."</br>";

             $filename='pic/'.$index.'.'.$type;

             $handle=fopen($filename,"a");

             $scrString=file_get_contents($scr);

             fwrite($handle, $scrString);

             fclose($handle);

         }

     }

 }

 }

 function judgeType($scr){

 $length=strlen($scr);

 if((($scr[$length-1]=='f'||$scr[$length-1]=='F'))&&(($scr[$length-2]=='i')||($scr[$length-2]=='I'))){

 return "gif";

 }

 else if ((($scr[$length-1]=='g'||$scr[$length-1]=='G'))&&(($scr[$length-2]=='P')||($scr[$length-2]=='p'))) {

      return "jpg";

 }

 else if((($scr[$length-1]=='g'||$scr[$length-1]=='G'))&&(($scr[$length-2]=='n')||($scr[$length-2]=='N'))){

     return "png";

 }

 else if((($scr[$length-1]=='g'||$scr[$length-1]=='G'))&&(($scr[$length-2]=='E')||($scr[$length-2]=='e'))){

     return "jpeg";

 }

 else{

     return  "error";

 }

 }

 function searchScr($index,$length,$string){

     if($string[$index+5]==="h"){

         $scr='';

         }

     else{

         $scr='http:';

         }

     for ($i=$index+5; $i<$length ; $i++) {

         if($string[$i]==='"'){

             //$scr=$scr.'"';

             break;

         }

         else{

         $scr=$scr.$string[$i];

             }

     }

     return $scr;

     //echo $scr;

 }

 ?>

主要说一些不足，动态生成的图片不能收录，css中的图片不能收录，这是接下来要完善的地方，爬虫就是不断完善出来的，php的字符串还是蛮累的。。。

PHP写的爬虫，爬指定网站页面上的各种图片的更多相关文章

【Python3 爬虫】14_爬取淘宝上的手机图片
现在我们想要使用爬虫爬取淘宝上的手机图片,那么该如何爬取呢?该做些什么准备工作呢? 首先,我们需要分析网页,先看看网页有哪些规律打开淘宝网站http://www.taobao.com/ 我们可以看到 ...
Python写网络爬虫爬取腾讯新闻内容
最近学了一段时间的Python,想写个爬虫,去网上找了找,然后参考了一下自己写了一个爬取给定页面的爬虫. Python的第三方库特别强大,提供了两个比较强大的库,一个requests, 另外一个Bea ...
如何使用robots禁止各大搜索引擎爬虫爬取网站
ps:由于公司网站配置的测试环境被百度爬虫抓取,干扰了线上正常环境的使用,刚好看到每次搜索淘宝时,都会有一句由于robots.txt文件存在限制指令无法提供内容描述,于是便去学习了一波 1.原来一般来 ...
用python写一个爬虫——爬取性感小姐姐
忍着鼻血写代码今天写一个简单的网上爬虫,爬取一个叫妹子图的网站里面所有妹子的图片. 然后试着先爬取了三页,大概有七百多张图片吧!各个诱人的很,有兴趣的同学可以一起来爬一下,大佬级程序员勿喷,简单爬虫 ...
Python爬虫爬取Web页面图片
从网页页面上批量下载jpg格式图片,并按照数字递增命名保存到指定的文件夹 Web地址:http://news.weather.com.cn/2017/12/2812347.shtml 打开网页,点击F ...
python爬取网站页面时，部分标签无指定属性而报错
在写爬取页面a标签下href属性的时候,有这样一个问题,如果a标签下没有href这个属性则会报错,如下: 百度了有师傅用正则匹配的,方法感觉都不怎么好,查了BeautifulSoup的官方文档,发现一 ...
webmagic 二次开发爬虫爬取网站图片
webmagic的是一个无须配置.便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫. webmagic介绍编写一个简单的爬虫 webmagic的使用文档:http://w ...
手把手教你用Node.js爬虫爬取网站数据
个人网站 https://iiter.cn 程序员导航站开业啦,欢迎各位观众姥爷赏脸参观,如有意见或建议希望能够不吝赐教! 开始之前请先确保自己安装了Node.js环境,还没有安装的的童鞋请自行百度 ...
Java爬虫爬取网站电影下载链接
之前有看过一段时间爬虫,了解了爬虫的原理,以及一些实现的方法,本项目完成于半年前,一直放在那里,现在和大家分享出来. 网络爬虫简单的原理就是把程序想象成为一个小虫子,一旦进去了一个大门,这个小虫子就像 ...

随机推荐

"《算法导论》之‘线性表’"：基于指针实现的单链表
对于单链表的介绍部分参考自博文数组.单链表和双链表介绍以及双向链表的C/C++/Java实现. 1. 单链表介绍单向链表(单链表)是链表的一种,它由节点组成,每个节点都包含下一个节点的指针. ...
Erlang cowboy 处理不规范的客户端
Erlang cowboy 处理不规范的客户端 Cowboy 1.0 参考本章: Dealing with broken clients 存在许多HTTP协议的实现版本.许多广泛使用的客户端,如浏览 ...
【LaTeX排版】LaTeX论文排版<一>
本文及接下来的几篇文章主要讲关于毕设论文的排版. 1.论文的整体构架学校规定论文字数不得少于15000:说明论文属于中篇论文.一般来说,中长篇论文采用book文类,短篇论文采用article ...
Android Studio Gradle Configuration Errors总结
初次看到这个错误,我从下手Error:Configuration with name 'default' not found. 只知道这是由于android的grad项目构建的时候出现的错误,但是具 ...
关于并发下内存及CPU使用情况的思考
鉴于昨天的文章<<使用Interlocked在多线程下进行原子操作,无锁无阻塞的实现线程运行状态判断>>里面有一个封装好的无锁的类库可以判断并发下的结束状况,我们可以完成并发时 ...
jsJqGrid
/*展开收起*/ $(function() { initGridTable(); }); function change() { var flag = $("#searchTitle&quo ...
Mysql创建索引
1．索引作用在索引列上,除了上面提到的有序查找之外,数据库利用各种各样的快速定位技术,能够大大提高查询效率.特别是当数据量非常大,查询涉及多个表时,使用索引往往能使查询速度加快成千上万倍. 例如,有 ...
修改was数据源
本机的RAD运行的工程可以通过修改jpa中的persistence中的jni修改数据源: 对于通过was控制台部署的ear需要在was控制台:资源--jdbc 修改数据源
Python字符串全解
1.字符串大小写转换 def strChange(): str = "niuXinLong@163.com" print("原字符串:" + str) prin ...
JAVA设计模式--学习总结(序)
设计模式(Design pattern)是一套被反复使用的.代码设计经验的总结.使用设计模式是为了可重用代码.让代码更容易被他人理解.保证代码可靠性. 常见的设计模式有23种.分为三大类:创建型模式, ...

PHP写的爬虫，爬指定网站页面上的各种图片

PHP写的爬虫，爬指定网站页面上的各种图片的更多相关文章

随机推荐

热门专题