网页抓取：PHP实现网页爬虫方式小结

来源：http://www.ido321.com/1158.html

抓取某一个网页中的内容，需要对DOM树进行解析，找到指定节点后，再抓取我们需要的内容，过程有点繁琐。LZ总结了几种常用的、易于实现的网页抓取方式，如果熟悉JQuery选择器，这几种框架会相当简单。

一、Ganon

项目地址： http://code.google.com/p/ganon/

文档： http://code.google.com/p/ganon/w/list

测试:抓取我的网站首页所有class属性值是focus的div元素，并且输出class值

<?php

 include 'ganon.php';

 $html = file_get_dom('http://www.ido321.com/');

 foreach($html('div[class="focus"]') as $element) {

   echo $element->class, "<br>\n";

 }

?>

结果:

二、phpQuery

项目地址：http://code.google.com/p/phpquery/

文档：https://code.google.com/p/phpquery/wiki/Manual

测试：抓取我网站首页的article标签元素，然后出书其下h2标签的html值

<?php

include 'phpQuery/phpQuery.php';

phpQuery::newDocumentFile('http://www.ido321.com/');

$artlist = pq("article");

foreach($artlist as $title){

   echo pq($title)->find('h2')->html()."<br/>";

}

?>

结果：

三、Simple-Html-Dom

项目地址： http://simplehtmldom.sourceforge.net/
文档： http://simplehtmldom.sourceforge.net/manual.htm

测试：抓取我网站首页的所有链接

<?php

include 'simple_html_dom.php';

//使用url和file都可以创建DOM

$html = file_get_html('http://www.ido321.com/');

//找到所有图片

// foreach($html->find('img') as $element)

//        echo $element->src . '<br>';

//找到所有链接

foreach($html->find('a') as $element)

       echo $element->href . '<br>';

?>

结果：（截图是一部分）

四、Snoopy

项目地址：http://code.google.com/p/phpquery/

文档：http://code.google.com/p/phpquery/wiki/Manual

测试：抓取我的网站首页

<?php

include("Snoopy.class.php");

$url = "http://www.ido321.com";

$snoopy = new Snoopy;

$snoopy->fetch($url); //获取所有内容

 echo $snoopy->results; //显示结果

// echo $snoopy->fetchtext ;//获取文本内容（去掉html代码）

// echo $snoopy->fetchlinks($url) ;//获取链接

// $snoopy->fetchform ;//获取表单

?>

结果：

五、手动编写爬虫

如果编写能力ok，可以手写一个网页爬虫，实现网页抓取。网上有千篇一律的介绍此方法的文章，LZ就不赘述了。有兴趣了解的，可以百度 php 网页抓取。

ps：资源分享

常见的开源爬虫项目请戳：http://blog.chinaunix.net/uid-22414998-id-3774291.html

下一篇：国民岳父的“屁民理论”

网页抓取：PHP实现网页爬虫方式小结的更多相关文章

Python网络爬虫笔记（一）：网页抓取方式和LXML示例
(一) 三种网页抓取方法 1. 正则表达式: 模块使用C语言编写,速度快,但是很脆弱,可能网页更新后就不能用了. 2. Beautiful Soup 模块使用Python编写,速度慢. ...
基于Casperjs的网页抓取技术【抓取豆瓣信息网络爬虫实战示例】
CasperJS is a navigation scripting & testing utility for the PhantomJS (WebKit) and SlimerJS (Ge ...
Python爬虫之三种网页抓取方法性能比较
下面我们将介绍三种抓取网页数据的方法,首先是正则表达式,然后是流行的 BeautifulSoup 模块,最后是强大的 lxml 模块. 1. 正则表达式如果你对正则表达式还不熟悉,或是需要一些提 ...
python网络爬虫-动态网页抓取（五）
动态抓取的实例在开始爬虫之前,我们需要了解一下Ajax(异步请求).它的价值在于在与后台进行少量的数据交换就可以使网页实现异步更新. 如果使用Ajax加载的动态网页抓取,有两种方法: 通过浏览器审查 ...
python网络爬虫-静态网页抓取（四）
静态网页抓取在网站设计中,纯HTML格式的网页通常被称之为静态网页,在网络爬虫中静态网页的数据比较容易抓取,因为说有的数据都呈现在网页的HTML代码中.相对而言使用Ajax动态加载的玩个的数据不一定 ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
【转载】ASP.NET以Post方式抓取远程网页内容类似爬虫功能
使用HttpWebRequest等Http相关类,可以在应用程序中或者网站中模拟浏览器发送Post请求,在请求带入相应的Post参数值,而后请求回远程网页信息.实现这一功能也很简单,主要是依靠Http ...
使用Python中的urlparse、urllib抓取和解析网页（一）（转）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过Python 语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
java网页抓取
网页抓取就是,我们想要从别人的网站上得到我们想要的,也算是窃取了,有的网站就对这个网页抓取就做了限制,比如百度直接进入正题 //要抓取的网页地址 String urlStr = "http ...

随机推荐

iOS视频录制、压缩导出、取帧
概述花了点时间研究了一下常用的视频获取.录制.压缩.取帧图功能,分享给大家了!相信阅读完本篇文章,会对你有很大的帮助的! 本篇文章研究几下以个功能: 视频录制从相册选择视频保持视频到相册获取视 ...
Tomcat启动报错:严重: StandardServer.await: create[8005] java.net.BindException: Cannot assign requested address
org.apache.catalina.core.StandardServer await SEVERE: StandardServer.await: create[8005]: ...
代码自动生成工具_java版
项目结构: 这里要实现的功能是,当我们给出了bean,如:Admin,User,People等实体类后, 我想用代码自动生成我想要的代码,最后生成的效果: 也就是说为每一个bean都生成相应的Dao, ...
在CentOS 6.X 上面安装 Python 2.7.X
在CentOS 6.X 上面安装 Python 2.7.X CentOS 6.X 自带的python版本是 2.6 , 由于工作需要,很多时候需要2.7版本.所以需要进行版本升级.由于一些系统工具和服 ...
Android 下log的使用总结
Android 下log的使用总结一:在源码开发模式下 1:包含头文件: #include <cutils/log.h> 2:定义宏LOG_TAG #define LOG_TAG &qu ...
SGU 275 To xor or not to xor （高斯消元）
题目链接题意:有n个数,范围是[0, 10^18],n最大为100,找出若干个数使它们异或的值最大并输出这个最大值. 分析: 一道高斯消元的好题/ 我们把每个数用二进制表示,要使得最后的异或值最大, ...
POJ 1113 凸包模板题
上模板. #include <cstdio> #include <cstring> #include <iostream> #include <algorit ...
SharePoint的安装配置
安装环境 1. Window server 2008 r2(sp2) OS.2. MS SQL Server 2008 r2.3. Office2010.4. IIS7以上.5. 确认服务器已经加入域 ...
MSSQL大全
一.基础 1.说明:创建数据库CREATE DATABASE database-name 2.说明:删除数据库drop database dbname3.说明:备份sql server--- 创建备 ...
UVa 11077 (循环分解递推) Find the Permutations
把{1, 2, 3,,, n}叫做自然排列本题便是求有多少个n元排列P要至少经过k次交换才能变为自然排列. 首先将排列P看做置换,然后将其分解循环,对于每个长度为i的循环至少要交换i-1次才能归位. ...

网页抓取：PHP实现网页爬虫方式小结

网页抓取：PHP实现网页爬虫方式小结的更多相关文章

随机推荐

热门专题