简单的爬虫爬的完整的<img>标签，修改正则即可修改爬取内容

简单的爬虫爬的完整的<img>标签，生成<img>标签结果文件与爬虫经历的网页。

<?php
/*
* 从给定的url获取html内容
*
*
*/
function _getUrlContent($url){
$handle = fopen($url, "r");
if($handle){
$content = stream_get_contents($handle,1024*1024);
return $content;
}else{
return false;
}
}
/**
* 从html内容中筛选链接
*
*/
function _filterUrl($web_content){
$reg_tag_a = '/<[a|A].*?href=[\'\"]{0,1}([^>\'\"\ ]*).*?>/';
$reg_tag_b = '/<\s*img\s+[^>]*?src\s*=\s*(\'|\")(.*?)\\1[^>]*?\/?\s*>/i'; //修改这个就可以修改爬取内容
$result = preg_match_all($reg_tag_a,$web_content,$match_result);
$result1 = preg_match_all($reg_tag_b,$web_content,$match_result1);
if($result){

//var_dump($match_result1);
foreach ($match_result1 as $img) {
if(is_string($img))
{
$file = fopen("img.txt","a");
fputs($file,$img."\r\n");

}
else
{
foreach ($img as $img1)
{
if(is_string($img1))
{
$file = fopen("img.txt","a");
fputs($file,$img1."\r\n");

}
else
{
foreach ($img1 as $img2)
{
if(is_string($img2))
{
$file = fopen("img.txt","a");
fputs($file,$img2."\r\n");

}
else
{
foreach ($img2 as $img3)
{
if(is_string($img3))
{
$file = fopen("img.txt","a");
fputs($file,$img3."\r\n");

}
}
}
}
}
}
}

}

return $match_result[1];
}
}
/**
* 修正相对路径
*
*
*/
function _reviseUrl($base_url,$url_list){
$url_info = parse_url($base_url);
$base_url = $url_info["scheme"].'://';
if($url_info["user"]&&$url_info["pass"]){
$base_url .= $url_info["user"].":".$url_info["pass"]."@";
}
$base_url .= $url_info["host"];
if($url_info["port"]){
$base_url .= ":".$url_info["port"];
}
$base_url .= $url_info["path"];
print_r($base_url);
if(is_array($url_list)){
foreach ($url_list as $url_item) {
if(preg_match('/^http/',$url_item)){
//已经是完整的url
$result[] = $url_item;
}else {
//不完整的url
$real_url = $base_url.'/'.$url_item;
$result[] = $real_url;
}
}
return $result;
}else {
return;
}
}
/**
* 爬虫
*
* @param string $url
* @return array
*/
function crawler($url){
$content = _getUrlContent($url);
if($content){
$url_list = _reviseUrl($url,_filterUrl($content));
if($url_list){
return $url_list;
}else {
return ;
}
}else{
return ;
}
}
/**
* 测试用主程序
*
*/
function main(){
$current_url = "https://www.baidu.com/";//初始url
$fp_puts = fopen("url.txt","ab");//记录url列表
$fp_gets = fopen("url.txt","r");//保存url列表
do{
$result_url_arr = crawler($current_url);
if($result_url_arr){
foreach ($result_url_arr as $url) {
fputs($fp_puts,$url."\r\n");
}
}
}while ($current_url = fgets($fp_gets,1024));//不断获得url
}
main();
?>

简单的爬虫爬的完整的<img>标签，修改正则即可修改爬取内容的更多相关文章

一个简单java爬虫爬取网页中邮箱并保存
此代码为一十分简单网络爬虫,仅供娱乐之用. java代码如下: package tool; import java.io.BufferedReader; import java.io.File; im ...
纯手工打造简单分布式爬虫(Python)
前言这次分享的文章是我<Python爬虫开发与项目实战>基础篇第七章的内容,关于如何手工打造简单分布式爬虫 (如果大家对这本书感兴趣的话,可以看一下试读样章),下面是文章的具体内容. ...
asp.net简单小爬虫
所谓爬虫简单点说,就是把别人网站上的东西爬下来,至于爬做什么用就看你自己了,比如:把别人网站上的东西爬下来放在自己网站中(感觉有点像小偷^v^). 这里随便写了一个爬虫代码(可以自己再去进行完善): ...
python （1）一个简单的爬虫： python 在windows下创建文件夹并写入文件
1.一个简单的爬虫:爬取豆瓣的热门电影的信息写在前面:如何创建本来存在的文件夹并写入 t_path = "d:/py/inn" #本来不存在inn,先定义路径,然后如果不存在,则 ...
用python3.x与mysql数据库构建简单的爬虫系统（转）
这是在博客园的第一篇文章,由于本人还是一个编程菜鸟,也写不出那些高大上的牛逼文章,这篇文章就是对自己这段时间学习python的一个总结吧. 众所周知python是一门对初学编程的人相当友好的编程语言, ...
NodeJs实现简单的爬虫
1.爬虫:爬虫,是一种按照一定的规则,自动地抓取网页信息的程序或者脚本:利用NodeJS实现一个简单的爬虫案例,爬取Boss直聘网站的web前端相关的招聘信息,以广州地区为例: 2.脚本所用到的nod ...
python爬虫系列（1）——一个简单的爬虫实例
本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片. 1. 概述本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片.下载图片的步骤如下: 获取网页html文本内容:分析html中 ...
【转】使用webmagic搭建一个简单的爬虫
[转]使用webmagic搭建一个简单的爬虫刚刚接触爬虫,听说webmagic很不错,于是就了解了一下. webmagic的是一个无须配置.便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代 ...
使用python实现简单的爬虫
python爬虫的简单实现开发环境的配置 python环境的安装编辑器的安装爬虫的实现包的安装简单爬虫的初步实现将数据写入到数据库-简单的数据清洗-数据库的连接-数据写入到数据库开发环境 ...

随机推荐

学习HTML+JSP(更新中)
1.HTML文档=网页 2.html是超文本标记语言的的缩写超文本:超越普通文本,可以在文档中添加普通文本不能添加的元素,如:图片.视频.超链接等标记语言:本身没有逻辑能力和执行能力,只被读取脚 ...
python安装代码包提示缺少 VC++ 14 控件的处理方式
下载如下文件,然后安装 http://go.microsoft.com/fwlink/?LinkId=691126
【温故知新】HTTP请求GET和POST的用法和区别
转自http://www.w3school.com.cn GET的使用请注意,查询字符串(名称/值对)是在 GET 请求的 URL 中发送的: /test/demo_form.asp?name1=v ...
HDFS基础1
一.HDFS入门二.HDFS基本操作 1.shell命令行客户端 Hadoop提供了文件系统的shell命令行客户端,使用方法如下: Hadoop fs <args>(参数哪一个文件系统 ...
vue-resource+element upload上传（遇到formData总是变为object格式）
文件上传这种业务需求很常见,但是最近用了element,仔细看了文档,按照demo写了上传,与后台传参调取接口时,控制台总是显示未获取到文件,想了又想,发现一开始思路就跑遍了... 写此博记录下遇到的 ...
matlab批量读取一个文件夹里类似命名的mat文件
参考网址: Matlab读取同一路径下多个txt或mat文件总结 matlab 批量读取数据文件.mat .dat 整理:matlab批量读入数据文件的方法首先命名方式体现在只是名字里数字有变化,其 ...
手动清除mac的广告弹框病毒 MacOSDefender
最近在浏览亚马逊, 京东的时候, 发现会自动弹出很多广告到浏览器, 其实是中了病毒MacOSDefender. 这个病毒非常烦人, 会在你浏览电商网页的时候拼命的打开广告页面, 而且还会弹出一些提示, ...
开发Canvas 绘画应用（四）：实现拖拽绘画
在开发Canvas绘画应用(三):实现对照绘画中,我们实现了视图引导的第一部分,这一篇我们来完成第二部分,即将图片直接拖到画布上进行绘画. ✁ 拖放如何实现? [拖放的基本概念]:创建一个绝对定位的元 ...
Python:从入门到实践--第七章--用户输入和while循环-练习
#1.编写一个程序,询问用户要租赁什么样的汽车,并打印. car = input("What's kind of cars dou you want to rent?,sir:") ...
javascript 之继承
1.传统方式--->原型链 (过多继承了没用的属性) Grand.prototype.lastname = 'zhang' function Grand(); } var grand = ne ...

简单的爬虫爬的完整的<img>标签，修改正则即可修改爬取内容

简单的爬虫爬的完整的<img>标签，修改正则即可修改爬取内容的更多相关文章

随机推荐

热门专题