PHP写的爬虫,爬指定网站页面上的各种图片
打算用php实现一个爬虫,这是爬指定页面的图片的一段程序,其他的部分还没调试好,先把这个放上来
<?php
$string=file_get_contents("http://www.baidu.com");
echo 'size:'.strlen($string)."</br>";
$length=strlen($string);
searchImg($string,$length); function searchImg($string,$length){
for ($i=0; $i <$length ; $i++) {
if(($string[$i]=='s')&&($string[$i+1]=='r')&&($string[$i+2]=='c')){
$index=$i; $scr=searchScr($index,$length,$string);//为“http://.......***”的格式 $type=judgeType($scr);
//
if($type!="error"){
echo 'location:'.$index.'</br>';
echo 'scourse:'.$scr.'</br>';
echo 'type:'.$type."</br>";
$filename='pic/'.$index.'.'.$type;
$handle=fopen($filename,"a"); $scrString=file_get_contents($scr);
fwrite($handle, $scrString);
fclose($handle);
} } }
} function judgeType($scr){
$length=strlen($scr); if((($scr[$length-1]=='f'||$scr[$length-1]=='F'))&&(($scr[$length-2]=='i')||($scr[$length-2]=='I'))){
return "gif";
}
else if ((($scr[$length-1]=='g'||$scr[$length-1]=='G'))&&(($scr[$length-2]=='P')||($scr[$length-2]=='p'))) {
return "jpg";
}
else if((($scr[$length-1]=='g'||$scr[$length-1]=='G'))&&(($scr[$length-2]=='n')||($scr[$length-2]=='N'))){
return "png";
}
else if((($scr[$length-1]=='g'||$scr[$length-1]=='G'))&&(($scr[$length-2]=='E')||($scr[$length-2]=='e'))){
return "jpeg";
}
else{
return "error";
}
} function searchScr($index,$length,$string){
if($string[$index+5]==="h"){ $scr='';
}
else{ $scr='http:';
} for ($i=$index+5; $i<$length ; $i++) {
if($string[$i]==='"'){
//$scr=$scr.'"';
break;
}
else{
$scr=$scr.$string[$i];
}
}
return $scr;
//echo $scr; } ?>
主要说一些不足,动态生成的图片不能收录,css中的图片不能收录,这是接下来要完善的地方,爬虫就是不断完善出来的,php的字符串还是蛮累的。。。
PHP写的爬虫,爬指定网站页面上的各种图片的更多相关文章
- 【Python3 爬虫】14_爬取淘宝上的手机图片
		
现在我们想要使用爬虫爬取淘宝上的手机图片,那么该如何爬取呢?该做些什么准备工作呢? 首先,我们需要分析网页,先看看网页有哪些规律 打开淘宝网站http://www.taobao.com/ 我们可以看到 ...
 - Python写网络爬虫爬取腾讯新闻内容
		
最近学了一段时间的Python,想写个爬虫,去网上找了找,然后参考了一下自己写了一个爬取给定页面的爬虫. Python的第三方库特别强大,提供了两个比较强大的库,一个requests, 另外一个Bea ...
 - 如何使用robots禁止各大搜索引擎爬虫爬取网站
		
ps:由于公司网站配置的测试环境被百度爬虫抓取,干扰了线上正常环境的使用,刚好看到每次搜索淘宝时,都会有一句由于robots.txt文件存在限制指令无法提供内容描述,于是便去学习了一波 1.原来一般来 ...
 - 用python写一个爬虫——爬取性感小姐姐
		
忍着鼻血写代码 今天写一个简单的网上爬虫,爬取一个叫妹子图的网站里面所有妹子的图片. 然后试着先爬取了三页,大概有七百多张图片吧!各个诱人的很,有兴趣的同学可以一起来爬一下,大佬级程序员勿喷,简单爬虫 ...
 - Python爬虫 爬取Web页面图片
		
从网页页面上批量下载jpg格式图片,并按照数字递增命名保存到指定的文件夹 Web地址:http://news.weather.com.cn/2017/12/2812347.shtml 打开网页,点击F ...
 - python爬取网站页面时,部分标签无指定属性而报错
		
在写爬取页面a标签下href属性的时候,有这样一个问题,如果a标签下没有href这个属性则会报错,如下: 百度了有师傅用正则匹配的,方法感觉都不怎么好,查了BeautifulSoup的官方文档,发现一 ...
 - webmagic 二次开发爬虫 爬取网站图片
		
webmagic的是一个无须配置.便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫. webmagic介绍 编写一个简单的爬虫 webmagic的使用文档:http://w ...
 - 手把手教你用Node.js爬虫爬取网站数据
		
个人网站 https://iiter.cn 程序员导航站 开业啦,欢迎各位观众姥爷赏脸参观,如有意见或建议希望能够不吝赐教! 开始之前请先确保自己安装了Node.js环境,还没有安装的的童鞋请自行百度 ...
 - Java爬虫爬取网站电影下载链接
		
之前有看过一段时间爬虫,了解了爬虫的原理,以及一些实现的方法,本项目完成于半年前,一直放在那里,现在和大家分享出来. 网络爬虫简单的原理就是把程序想象成为一个小虫子,一旦进去了一个大门,这个小虫子就像 ...
 
随机推荐
- LeetCode之“动态规划”:Maximal Square && Largest Rectangle in Histogram && Maximal Rectangle
			
1. Maximal Square 题目链接 题目要求: Given a 2D binary matrix filled with 0's and 1's, find the largest squa ...
 - 一个简单的基于 DirectShow 的播放器  2(对话框类)
			
上篇文章分析了一个封装DirectShow各种接口的封装类(CDXGraph):一个简单的基于 DirectShow 的播放器 1(封装类) 本文继续上篇文章,分析一下调用这个封装类(CDXGrap ...
 - Linux - Bash shell的功能;内建命令type
			
命令编修能力 (history): bash 的功能里头,相当棒的一个就是『他能记忆使用过的命令!』 这功能真的相当的棒!因为我只要在命令列按『上下键』就可以找到前/后一个输入的命令!而在很多 dis ...
 - web报表工具finereport常用函数的用法总结(数组函数)
			
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素,再返回该数组. 示例: ADDARRAY([3 ...
 - 多Region下HBase写入问题
			
最近在集群上发现hbase写入性能受到较大下降,测试环境下没有该问题产生.而生产环境和测试环境的区别之一是生产环境的region数量远远多于测试环境,单台regionserver服务了约3500个re ...
 - 使用vs2010 opencv2.4.4编译release版本程序
			
大体上要注意一下几点内容: 1.vc++目录的选择上,库目录选择为opencv目录中的staticlib目录 2.在链接->输入->附加依赖库,中添加,相应的staticlib库目录中的所 ...
 - javascript访问html元素的内容(2)
			
对于(1)中最后一个包装方式创建的是一个方法,我们必须以方法调用的方式来使用它,这和其他默认的以属性返回结果略有不同,如果有强迫症的童鞋有些伤不起,那么我们下面就把它实现为属性返回的方式: //chi ...
 - javascript简单介绍(二)
			
晨读单词: onmouseover:鼠标移入 onmouseout:鼠标移出 attribute:属性 node:节点 document:文档 element:元素 textNode:文本节点 app ...
 - vue中get和post请求
			
import axios from 'axios'; import router from '@/router'; import { setSessionStorage, getSes ...
 - python---内置函数,匿名函数,嵌套函数,高阶函数,序列化
			
函数简单说明 # 函数即"变量" # 高阶函数 # a.把一个函数名当做实参传给另一个函数(在不修改被装饰函数的源代码的情况下,为其添加功能) # b.返回值中包含函数名(不修改函 ...