PHP实现简单爬虫-抓取网页url

<?php

/**

 * 爬虫程序 -- 原型

 *

 * 从给定的url获取html内容

 *

 * @param string $url

 * @return string

 */

function _getUrlContent($url) {

    $handle = fopen($url, "r");

    if ($handle) {

        $content = stream_get_contents($handle, 1024 * 1024);

        return $content;

    } else {

        return false;

    }

}

/**

 * 从html内容中筛选链接

 *

 * @param string $web_content

 * @return array

 */

function _filterUrl($web_content) {

    $reg_tag_a = '/<[a|A].*?href=[\'\"]{0,1}([^>\'\"\ ]*).*?>/';

    $result = preg_match_all($reg_tag_a, $web_content, $match_result);

    if ($result) {

        return $match_result[1];

    }

}

/**

 * 修正相对路径

 *

 * @param string $base_url

 * @param array $url_list

 * @return array

 */

function _reviseUrl($base_url, $url_list) {

    $url_info = parse_url($base_url);

    $base_url = $url_info["scheme"] . '://';

    if ($url_info["user"] && $url_info["pass"]) {

        $base_url .= $url_info["user"] . ":" . $url_info["pass"] . "@";

    }

    $base_url .= $url_info["host"];

    if ($url_info["port"]) {

        $base_url .= ":" . $url_info["port"];

    }

    $base_url .= $url_info["path"];

    print_r($base_url);

    if (is_array($url_list)) {

        foreach ($url_list as $url_item) {

            if (preg_match('/^http/', $url_item)) {

                // 已经是完整的url

                $result[] = $url_item;

            } else {

                // 不完整的url

                $real_url = $base_url . '/' . $url_item;

                $result[] = $real_url;

            }

        }

        return $result;

    } else {

        return;

    }

}

/**

 * 爬虫

 *

 * @param string $url

 * @return array

 */

function crawler($url) {

    $content = _getUrlContent($url);

    if ($content) {

        $url_list = _reviseUrl($url, _filterUrl($content));

        if ($url_list) {

            return $url_list;

        } else {

            return ;

        }

    } else {

        return ;

    }

}

/**

 * 测试用主程序

 */

function main() {

    $current_url = "http://hao123.com/"; //初始url

    $fp_puts = fopen("url.txt", "ab"); //记录url列表

    $fp_gets = fopen("url.txt", "r"); //保存url列表

    do {

        $result_url_arr = crawler($current_url);

        if ($result_url_arr) {

            foreach ($result_url_arr as $url) {

                fputs($fp_puts, $url . "\r\n");

            }

        }

    } while ($current_url = fgets($fp_gets, 1024)); //不断获得url

}

main();

?>

PHP实现简单爬虫-抓取网页url的更多相关文章

Python3简单爬虫抓取网页图片
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...
爬虫技术 -- 进阶学习（七）简单爬虫抓取示例（附c#代码）
这是我的第一个爬虫代码...算是一份测试版的代码.大牛大神别喷... 通过给定一个初始的地址startPiont然后对网页进行捕捉,然后通过正则表达式对网址进行匹配. List<string&g ...
爬虫技术（四）-- 简单爬虫抓取示例（附c#代码）
这是我的第一个爬虫代码...算是一份测试版的代码.大牛大神别喷... 通过给定一个初始的地址startPiont然后对网页进行捕捉,然后通过正则表达式对网址进行匹配. List<string&g ...
怎么用Python写爬虫抓取网页数据
机器学习首先面临的一个问题就是准备数据,数据的来源大概有这么几种:公司积累数据,购买,交换,政府机构及企业公开的数据,通过爬虫从网上抓取.本篇介绍怎么写一个爬虫从网上抓取公开的数据. 很多语言都可以写 ...
使用Python3爬虫抓取网页来下载小说
很多时候想看小说但是在网页上找不到资源,即使找到了资源也没有提供下载,小说当然是下载下来用手机看才爽快啦! 于是程序员的思维出来了,不能下载我就直接用爬虫把各个章节爬下来,存入一个txt文件中,这样, ...
linux中使用wget模拟爬虫抓取网页
如何在linux上或者是mac上简单使用爬虫或者是网页下载工具呢,常规的我们肯定是要去下载一个软件下来使用啦,可怜的这两个系统总是找不到相应的工具,这时wget出来帮助你啦!!!wget本身是拿来下载 ...
关于Python3爬虫抓取网页Unicode
import urllib.requestresponse = urllib.request.urlopen('http://www.baidu.com')html = response.read() ...
C# 使用 Abot 实现爬虫抓取网页信息源码下载
下载地址 ** dome **
CVE爬虫抓取漏洞URL
String url1="http://www.cnnvd.org.cn/vulnerability/index/vulcode2/tomcat/vulcode/tomcat/cnnvdid ...

随机推荐

1M网速等于多少K
http://zhidao.baidu.com/question/157400316.html&__bd_tkn__=65ac453b343794385019e962bfb06bb8c710d ...
35:字符串单词倒排 ReverseWords
题目描述:对字符串中的所有单词进行倒排. 说明: 1.每个单词是以26个大写或小写英文字母构成: 2.非构成单词的字符均视为单词间隔符: 3.要求倒排后的单词间隔符以一个空格表示:如果原字符串中相邻单 ...
模拟IE各种版本的方法
下载360极速浏览器.开启“兼容模式” 默认会是IE7.可以通过控制台(Ctrl + shift + I)调整各个版本
Java获取系统属性及环境变量
当程序中需要使用与操作系统相关的变量(例如:文件分隔符.换行符)时,Java提供了System类的静态方法getenv()和getProperty()用于返回系统相关的变量与属性,getenv方法返回 ...
Java的Executor框架和线程池实现原理
Java的Executor框架 1,Executor接口 public interface Executor { void execute(Runnable command); } Executor接 ...
oracle中v$sga_target_advice的用途
v$sga_target_advice:该视图可用于建议SGA大小设置是否合理. SELECT a.sga_size,--sga期望大小 a.sga_size_factor,-- ...
Intellij IDEA如何不显示参数提示
刚安装了IDEA之后,调用方法的时候会提示方法中的参数,就像下面这样: 虽然IDEA也是好心,提示,但是劳资看着难受啊. 如果觉得不习惯,不想看参数名,可以用下图的方式取消.具体是: setting ...
Unix中库的使用
库有点像java中的jar包,但是使用起来要比jar包要麻烦一点. 库分为静态编程库和动态链接库两种. 库一旦设计出来就需要被可执行程序链接和调用. 可执行程序在编译时直接载入静态编程库,在运行时直接 ...
php html_entity_decode使用总结
在处理网页字符串的时候,尤其是做爬虫类的应用时,经常会涉及到要处理的字符串中包含html标签,现在对这类字符串的处理做一个小的总结: 有时候获取到的字符串中有html标签,在入库的时候出于安全的考虑通 ...
再看GS线程
再看GS线程 void GameServer::ProcessThreadTry() { ; packet rcvPkt; rcvPkt.data = * ]; //该事件工厂主要创建了两个定时器1. ...

PHP实现简单爬虫-抓取网页url

PHP实现简单爬虫-抓取网页url的更多相关文章

随机推荐

热门专题