PHP爬虫（2）DOM处理

摘要：在 PHP爬虫（1 ）中详细了介绍了CURL抓取HTML数据的技术。采集数据处理也是爬虫技术中非常重要的部分。处理HTML数据可以用字符串查找，也可以利用正则表达式，但采用Dom处理是最高级的方法。

现在我们要抓取中国军网首页“军媒要闻要论”第一条内容，

通过浏览器工具查看网页元素，通过console获取数据。通过下图我们可以看到，在浏览器中我们可以方便调用Jquery的dom查找函数，轻松找到数据，PHP中是否也有这样的工具可以很方便的处理DOM？

在github上查找php dom parse，我们找到sunra/php-simple-html-dom-parser，使用用户还挺多的。下面我们介绍如何使用PhpDomParse组件，分别介绍直接引用、composer、ThinkPhp中如何使用。

1.直接引用

首选下载组件文件夹，在当前工程目录中执行

git clone https://github.com/sunra/php-simple-html-dom-parser.git

此时，工程目录下就会多出php-simpple-html-dom-parser文件夹，文件夹目录如下图

引用HtmlDomParaer.php

<?php

    include "./php-simple-html-dom-parser/Src/Sunra/PhpSimple/HtmlDomParser.php";

    use Sunra\PhpSimple\HtmlDomParser;

    $url = "http://www.81.cn";

    $dom = HtmlDomParser::file_get_html( $url );

    $u = $dom->find("#JMYWYL dt",0);

    $title = $u ->find('a',0);

    echo $title->innertext;

?>

2.Composer调用方法

在工程目录下安装Composer.phar，创建composer.json文件，

{

    "require": {

        "sunra/php-simple-html-dom-parser": "v1.5.0"

    }

}

运行，php compose.phar install

Composer会根据composer.json内容，下载需要的文件，安装成功之后，工程文件夹如下，

代码如下，系统会自动加载\Sunra\PhpSimple\HtmlDomParse

<?php

    require __DIR__ . '/vendor/autoload.php';

    $url = "http://www.81.cn";

    $dom = \Sunra\PhpSimple\HtmlDomParser::file_get_html( $url );

    $u = $dom->find("#JMYWYL dt",0);

    $title = $u ->find('a',0);

    echo $title->innertext;

?>

3、thinkphp框架

笔者日常也是使用TP框架的，也许有的读者没在TP中引入其他框架。TP提供了进入框架的机制，我们将Sunra文件夹放在“安装路径-->ThinkPHP->Library->Vendor”目录中，结构如下图所示，

工程代码如下

class IndexController extends Controller {

    public function index(){

}

    public function dom()

    {

        Vendor('Sunra.PhpSimple.HtmlDomParser');

        $url = "http://www.81.cn";

        //$dom = \Sunra\PhpSimple\HtmlDomParser::file_get_html( $url );

        $dom =file_get_html( $url );

        $u = $dom->find("#JMYWYL dt",0);

        $title = $u ->find('a',0);

        echo $title->innertext;

    }

}

附录

php composer.phar install,出现下列错误，

SSL3_GET_SERVER_CERTIFICATE:certificate verify failed

解决办法，

（1）wget http://curl.haxx.se/ca/cacert.pem

（2）修改php.ini，添加

openssl.cafile="/opt/lampp/cacert.pem"

PHP爬虫（2）DOM处理的更多相关文章

获取特定html源码富文本编辑器爬虫生成 dom
python beautifulsoup获取特定html源码 - 吴悟无 - 博客园 https://www.cnblogs.com/vickey-wu/p/6843411.html PyQuery库 ...
机器学习 Top 20 Python 开源项目
转自:http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=2652565022&idx=1&sn=9aa035097120 ...
【VB6】使用VB6创建和访问Dom树【爬虫基础知识】
使用VB6创建和访问Dom树关键字:VB,DOM,HTML,爬虫,IHTMLDocument 我们知道,在VB中一般大家会用WebBrowser来获取和操作dom对象. 但是,有这样一种情形,却让我 ...
PHP爬虫（3）PHP DOM开源代码里的大坑和字符编码
一.开源代码的问题在PHP爬虫(2)中介绍了开源工程Sunra.PhpSimple.HtmlDomParser.在实际工作中发现一个问题,例如http://www.163.com的网页数据怎么也抓取 ...
php爬虫学习笔记1 PHP Simple HTML DOM Parser
常用爬虫. 0. Snoopy是什么? (下载snoopy) Snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务. Snoopy的一些特点: * ...
VBA分别使用MSXML的DOM属性和XPATH进行网页爬虫
本文要重点介绍的是VBA中的XmlHttp对象(MSXML2.XMLHTTP或MSXML.XMLHTTP),它可以向http服务器发送请求并使用微软XML文档对象模型Microsoft XML Doc ...
关于爬虫的日常复习（7）—— DOM操作及selenium库
Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
基于Node.js实现一个小小的爬虫
以前一直听说有爬虫这种东西,稍微看了看资料,貌似不是太复杂. 正好了解过node.js,那就基于它来个简单的爬虫. 1.本次爬虫目标: 从拉钩招聘网站中找出“前端开发”这一类岗位的信息,并作相应页面分 ...

随机推荐

MFC - 微软基础类库和框架
一 MFC的概念和作用 1 什么是MFC?? 全称 Microsoft Foundation Class Library我们称之为微软基础类库 1)从硬盘的存在形式上来说 MFC就是一个库(静/动态库 ...
python代码优化---就喜欢细节
地址:http://www.codeproject.com/Tips/829060/Python-Code-Optimizations-Part-One 转发过来保存一下.喜欢精雕细琢,编程才有乐趣. ...
使用自定义的framework
1.创建framework工程,创建需要的类将接口暴露在public中
如何让你的UWP应用程序无缝调用几何作图
有时候需要编辑一些几何图形,如三角形,圆锥曲线等,在UWP应用中加入这些几何作图功能是件费时间又很难做好的事.其实Windows 10 应用商店中已有一些专业的几何作图工具了,那么能借来一用吗?答案是 ...
php memcache扩展出现错误dyld: Symbol not found: _mmc_queue_free
mac 10.10 系统安装php memcache扩展在使用memcache的时候出现错误dyld: Symbol not found: _mmc_queue_free需要重新编译memcache ...
《UML大战需求分析》阅读笔记5
流程分析利器三,顺序图. 顺序图描述的是一件事发生的顺序,按照时间的发展,事情的走向,其中分为角色,消息等,每个角色下面都有一条生命线,从上到下,从左到右,依次进行事件,没有事情的时候用虚线表示,而有 ...
kali linux 、 windows、ubuntu三系统的引导问题
'小飞机'是一个学生,所以接触的东西,虽广泛,但并不精通,在此利用随笔,记录自己的一些学习过程,以及自己的想法,既可以有时间自己复习,也可以顺便帮助别人. 近期由于同学的引诱以及男生天生对于破解的好奇 ...
STM32 DMA模块的配置与使用
DMA有什么用? 直接存储器存取用来提供在外设和存储器之间或者存储器和存储器之间的高速数据传输.无须CPU的干预,通过DMA数据可以快速地移动.这就节省了CPU的资源来做其他操作. 有多少个DMA资源 ...
Sublime无法使用package control安装插件
我之前想通过安装sftp,但是出现了这个问题,百度了很久才解决.东西也是从网上找的,现总结下: 网上说什么安装个新的,我也是简直醉了,其实新的并不好使. 但是,我们最好安装个新的,再继续下面的操作 ...
ReStart
ACM开始了?……重新启用Blog~

PHP爬虫（2）DOM处理

PHP爬虫（2）DOM处理的更多相关文章

随机推荐

热门专题