PHP实现网页爬虫

抓取某一个网页中的内容，需要对DOM树进行解析，找到指定节点后，再抓取我们需要的内容，过程有点繁琐。LZ总结了几种常用的、易于实现的网页抓取方式，如果熟悉JQuery选择器，这几种框架会相当简单。

一、Ganon

文档： http://code.google.com/p/ganon/w/list

测试:抓取我的网站首页所有class属性值是focus的div元素，并且输出class值

<?php

 include 'ganon.php';

 $html = file_get_dom('http://www.ido321.com/');

 foreach($html('div[class="focus"]') as $element) {

   echo $element->class, "<br>\n";

 }

?>

结果:

二、phpQuery

项目地址：http://code.google.com/p/phpquery/

文档：https://code.google.com/p/phpquery/wiki/Manual

测试：抓取我网站首页的article标签元素，然后出书其下h2标签的html值

<?php

include 'phpQuery/phpQuery.php';

phpQuery::newDocumentFile('http://www.ido321.com/');

$artlist = pq("article");

foreach($artlist as $title){

   echo pq($title)->find('h2')->html()."<br/>";

}

?>

结果：

三、Simple-Html-Dom

项目地址： http://simplehtmldom.sourceforge.net/
文档： http://simplehtmldom.sourceforge.net/manual.htm

测试：抓取我网站首页的所有链接

<?php

include 'simple_html_dom.php';

//使用url和file都可以创建DOM

$html = file_get_html('http://www.ido321.com/');

//找到所有图片

// foreach($html->find('img') as $element)

//        echo $element->src . '<br>';

//找到所有链接

foreach($html->find('a') as $element)

       echo $element->href . '<br>';

?>

结果：（截图是一部分）

四、Snoopy

项目地址：http://code.google.com/p/phpquery/

文档：http://code.google.com/p/phpquery/wiki/Manual

测试：抓取我的网站首页

<?php

include("Snoopy.class.php");

$url = "http://www.ido321.com";

$snoopy = new Snoopy;

$snoopy->fetch($url); //获取所有内容

 echo $snoopy->results; //显示结果

// echo $snoopy->fetchtext ;//获取文本内容（去掉html代码）

// echo $snoopy->fetchlinks($url) ;//获取链接

// $snoopy->fetchform ;//获取表单

?>

结果：

五、手动编写爬虫

如果编写能力ok，可以手写一个网页爬虫，实现网页抓取。网上有千篇一律的介绍此方法的文章，LZ就不赘述了。有兴趣了解的，可以百度 php 网页抓取。

ps：资源分享

常见的开源爬虫项目请戳：http://blog.chinaunix.net/uid-22414998-id-3774291.html

注：原文博客地址 http://www.ido321.com/1158.html

PHP实现网页爬虫的更多相关文章

cURL 学习笔记与总结（2）网页爬虫、天气预报
例1.一个简单的 curl 获取百度 html 的爬虫程序(crawler): spider.php <?php /* 获取百度html的简单网页爬虫 */ $curl = curl_init( ...
c#网页爬虫初探
一个简单的网页爬虫例子! html代码: <head runat="server"> <title>c#爬网</title> </head ...
网页爬虫--scrapy入门
本篇从实际出发,展示如何用网页爬虫.并介绍一个流行的爬虫框架~ 1. 网页爬虫的过程所谓网页爬虫,就是模拟浏览器的行为访问网站,从而获得网页信息的程序.正因为是程序,所以获得网页的速度可以轻易超过单 ...
网页爬虫的设计与实现（Java版）
网页爬虫的设计与实现(Java版) 最近为了练手而且对网页爬虫也挺感兴趣,决定自己写一个网页爬虫程序. 首先看看爬虫都应该有哪些功能. 内容来自(http://www.ibm.com/deve ...
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱（转）
原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开 ...
[resource-]Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
reference: http://www.52nlp.cn/python-%e7%bd%91%e9%a1%b5%e7%88%ac%e8%99%ab-%e6%96%87%e6%9c%ac%e5%a4% ...
网页抓取：PHP实现网页爬虫方式小结
来源:http://www.ido321.com/1158.html 抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐.LZ总结了几种常用的.易于实现 ...
Java正则表达式--网页爬虫
网页爬虫:其实就一个程序用于在互联网中获取符合指定规则的数据爬取邮箱地址,爬取的源不同,本地爬取或者是网络爬取 (1)爬取本地数据: public static List<String> ...
从robots.txt開始网页爬虫之旅
做个网页爬虫或搜索引擎(下面统称蜘蛛程序)的各位一定不会陌生,在爬虫或搜索引擎訪问站点的时候查看的第一个文件就是robots.txt了.robots.txt文件告诉蜘蛛程序在server上什么文件是能 ...
Python网页爬虫（一）
很多时候我们想要获得网站的数据,但是网站并没有提供相应的API调用,这时候应该怎么办呢?还有的时候我们需要模拟人的一些行为,例如点击网页上的按钮等,又有什么好的解决方法吗?这些正是python和网页爬 ...

随机推荐

maven系列--settings.xml
安装maven,会有一份settings.xml文件,我们可以理解这份文件就是用来管理本地maven的一系列东西的.这里我先贴出一份完整的原始xml. <?xml version="1 ...
ios GCD将异步转换为同步
在开发中有时需要等网络请求完成之后拿到数据做一些操作,而且有时是同时好几个网络请求同时发起.这时会有对异步操作进行更进一步控制的场景,不单网络请求,有时一些其他本地文件,多张图片处理等可能都会遇到这种 ...
Apache配置虚拟主机后,不能访问localhost
解决方法:将localhost设为虚拟域名重要的是要注释掉httpd.conf文件的ServerName localhost:80
Selenium+java+idea的安装与配置
当前操作系统:Windows10pro x64 一.安装JDK 1.到jdk官网下载一个对应当前系统的安装包(Selenium仅支持JDK1.8及以上版本) 网址:http://www.oracle. ...
新版elasticsearch的插件安装
安装 yum localinstall elasticsearch-6.1.1.rpm -y mkdir -p /elk/{data,logs} && chown -R elastic ...
NetCloud——一个网易云音乐评论抓取和分析的Python库
在17的四月份,我曾经写了一篇关于网易云音乐爬虫的文章,还写了一篇关于评论数据可视化的文章.在这大半年的时间里,有时会有一些朋友给我发私信询问一些关于代码方面的问题.所以我最近抽空干脆将原来的代码整理 ...
计算机中RAM和ROM
1.RAM(RamdomAccessMemory): 易挥发性随机存取存储器,高速存取,读写时间相等,且与地址无关,如计算机内存等. 2.ROM(Read Only Memory): 只读存储器.断电 ...
@RequestMapping注解
Spring MVC中用于参数绑定的注解有很多,都在org.springframework.web.bind.annotation包中,根据它们处理的request的不同内容部分可以分为四类(主要讲解 ...
vsftpd安装和使用 Linux系统和window系统
vsftpd 安装(Linux)一.安装系统环境 centos 6.9 64位二.vsftpd版本 vsftpd-2.2.2-24.el6.x86_64三.安装步骤1.安装执行 yum -y ins ...
linux中sed在指定字符前后添加内容
假设文档内容如下: [root@localhost ~]# cat /tmp/input.txt null 000011112222 test 要求:在1111之前添加AAA,方法如下: sed ...

PHP实现网页爬虫

PHP实现网页爬虫的更多相关文章

随机推荐

热门专题