简单的PHP HTML DOM 解析器中文手册 | PHP Simple HTML DOM Parser中文手册

快速入门

Top

//从一个URL或者文件创建一个DOM对象
$html = file_get_html('http://www.google.cn/');

// 寻找所有的img标签
foreach($html->find('img') as $element)
echo $element->src . '<br>';

// 寻找所有的链接标签
foreach($html->find('a') as $element)
echo $element->href . '<br>';

//从字符串创建一个DOM对象
$html = str_get_html('<div id="hello">Hello</div><div id="world">World</div>');

$html->find('div', 1)->class = 'bar';

$html->find('div[id=hello]', 0)->innertext = 'foo';

echo $html; // 输出: <div id="hello">foo</div><div id="world" class="bar">World</div>

// 从HTML中提取内容(不包含标签)
echo file_get_html('http://www.google.com/')->plaintext;

//从URL创建一个DOM对象
$html = file_get_html('http://slashdot.org/');

// 寻找所有的article块
foreach($html->find('div.article') as $article) {
    $item['title']     = $article->find('div.title', 0)->plaintext;
    $item['intro']    = $article->find('div.intro', 0)->plaintext;
    $item['details'] = $article->find('div.details', 0)->plaintext;
    $articles[] = $item;
}

print_r($articles);

如何创建HTML DOM 对象？

Top

//从字符串创建一个DOM对象
$html = str_get_html('<html><body>Hello!</body></html>');

//从一个URL创建一个DOM对象
$html = file_get_html('http://www.google.com/');

//从一个HTML文件创建一个DOM对象
$html = file_get_html('test.htm');

//创建一个DOM对象
$html = new simple_html_dom();

//从字符串中载入HTML
$html->load('<html><body>Hello!</body></html>');

//从URL中载入HTML
$html->load_file('http://www.google.cn/');

//从文件中载入HTML
$html->load_file('test.htm');
//输出
echo $html;

如何查找HTML元素?

Top

// 查找所有的锚, 返回一个元素对象数组
$ret = $html->find('a');

//查找第N个 锚, 返回元素对象或者当找不到时返回null (从零开始)
$ret = $html->find('a', 0);

//查找最后一个 锚, 返回元素对象或者当找不到时返回null (从零开始)
$ret = $html->find('a', -1);

//通过id属性查找所有的<div>
$ret = $html->find('div[id]');

// 查找所有属性id=foo的<div>标签
$ret = $html->find('div[id=foo]');

//查找所有id=foo的元素
$ret = $html->find('#foo');

//查找所有class=foo的元素
$ret = $html->find('.foo');

//查找所有包含id属性的的元素
$ret = $html->find('*[id]');

//查找所有的锚与图片
$ret = $html->find('a, img');

//查找所有包含title属性的锚与图片
$ret = $html->find('a[title], img[title]');

在属性过滤器中支持如下运算符:

过滤器
描述

[属性]	匹配包含指定属性的元素.
[!属性]	匹配不包含指定属性的元素.
[属性=value]	匹配等于特定值的指定属性的元素.
[属性!=value]	匹配除包含特定值的指定属性之外的元素
[属性^=value]	匹配包含特定前缀的值的指定属性的元素.
[属性$=value]	匹配包含特定后缀的值的指定属性的元素.
[属性*=value]	匹配包含特定值的指定属性的元素..

//在<ul>中查找所有的<li>后代
$es = $html->find('ul li');

//查找所有的<div>嵌套标签
$es = $html->find('div div div');

//在<table>中查找所有的class=hello的<td>后代
$es = $html->find('table.hello td');

//在table标签中查找所有属性align=center的td
$es = $html->find(''table td[align=center]');

//查找所有的text区块
$es = $html->find('text');

//查找所有的comment ()区块
$es = $html->find('comment');

//在<ul>中查找所有的<li>
foreach($html->find('ul') as $ul)
{
       foreach($ul->find('li') as $li)
       {
             //在这里执行操作...
       }
}

//在第一个<ul>中查找第一个<li>
$e = $html->find('ul', 0)->find('li', 0);

如何访问HTML元素的属性?

Top

// 获取属性(如果是一个空值属性(例如. checked, selected...这些属性),则返回true或者false)
$value = $e->href;

// 设置属性(如果是一个空值属性(例如. checked, selected...这些属性),则让值等于true或者false)
$e->href = 'my link';

// 删除属性,让其值为空!
$e->href = null;

// 确定某个属性是否存在?
if(isset($e->href))
echo 'href exist!';

// 列子
$html = str_get_html("<div>foo <b>bar</b></div>");
$e = $html->find("div", 0);

echo $e->tag; // 返回: " div"
echo $e->outertext; // 返回: " <div>foo <b>bar</b></div>"
echo $e->innertext; // 返回: " foo <b>bar</b>"
echo $e->plaintext; // 返回: " foo bar"

属性名
用法

$e->tag	Read or write the tag name of element.
$e->outertext	Read or write the outer HTML text of element.
$e->innertext	Read or write the inner HTML text of element.
$e->plaintext	Read or write the plain text of element.

// Extract contents from HTML
echo $html->plaintext;

// Wrap a element
$e->outertext = '<div class="wrap">' . $e->outertext . '<div>';

// Remove a element, set it's outertext as an empty string
$e->outertext = '';

// Append a element
$e->outertext = $e->outertext . '<div>foo<div>';

// Insert a element
$e->outertext = '<div>foo<div>' . $e->outertext;

如何遍历DOM树?

Top

//如果你不是很熟悉HTML DOM,那么请点击这个链接查看更多资料...

//列子
echo $html->find("#div1", 0)->children(1)->children(1)->children(2)->id;
//或者
echo $html->getElementById("div1")->childNodes(1)->childNodes(1)->childNodes(2)->getAttribute('id');

你也可以使用骆驼命名法调用.
方法
描述

mixed $e->children ( [int $index] )	Returns the Nth child object if index is set, otherwise return an array of children.
element $e->parent ()	Returns the parent of element.
element $e->first_child ()	Returns the first child of element, or null if not found.
element $e->last_child ()	Returns the last child of element, or null if not found.
element $e->next_sibling ()	Returns the next sibling of element, or null if not found.
element $e->prev_sibling ()	Returns the previous sibling of element, or null if not found.

如何储存DOM对象中的内容?

Top

// 将DOM树中的内容储存在字符串中
$str = $html->save();

//将DOM树中的内容储存在文件中
$html->save('result.htm');

// 将DOM树中的内容储存在字符串中
$str = $html;

//打印输出!
echo $html;

如何自定义解析器方法？

Top

Callback 函数

//创建一个带有"$element"参数的函数
function my_callback($element) {
        //隐藏所有的<b>标签
        if ($element->tag=='b')
                $element->outertext = '';
}

//用它的函数名注册callback函数
$html->set_callback('my_callback');

//当输出时就会引用Callback函数
echo $html;

PHP HTML DOM 解析器中文手册的更多相关文章

PHP Simple HTML DOM解析器
一直以来使用php解析html文档树都是一个难题.Simple HTML DOM parser 帮我们很好地解决了使用 php html 解析问题.可以通过这个php类来解析html文档,对其中的h ...
dom解析器机制 web基本概念 tomcat
0 作业[cn.itcast.xml.sax.Demo2] 1)在SAX解析器中,一定要知道每方法何时执行,及SAX解析器会传入的参数含义 1 理解dom解析器机制 1)dom解析和dom4j原理 ...
使用Dom解析器，操作XML里面的信息
import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;impo ...
PHP Simple HTML DOM解析器使用入门
http://www.cnphp.info/php-simple-html-dom-parser-intro.html 一直以来使用php解析html文档树都是一个难题.Simple HTML DOM ...
JAVA与DOM解析器提高（DOM/SAX/JDOM/DOM4j/XPath）学习笔记二
要求必备知识 JAVA基础知识.XML基础知识. 开发环境 MyEclipse10 资料下载源码下载 sax.dom是两种对xml文档进行解析的方法(没有具体实现,只是接口),所以只有它们是无 ...
JAVA与DOM解析器基础学习笔记
要求必备知识 JAVA基础知识.XML基础知识. 开发环境 MyEclipse10 资料下载源码下载文件对象模型(Document Object Model,简称DOM),是W3C组织推荐的 ...
解析XML文件之使用DOM解析器
在前面的文章中.介绍了使用SAX解析器对XML文件进行解析.SAX解析器的长处就是占用内存小.这篇文章主要介绍使用DOM解析器对XML文件进行解析. DOM解析器的长处可能是理解起来比較的直观,当然, ...
Java DOM解析器 - 解析XML文档
使用DOM的步骤以下是在使用DOM解析器解析文档使用的步骤. 导入XML相关的软件包. 创建DocumentBuilder 从文件或流创建一个文档提取根元素检查属性检查子元素导入XML相关的 ...
Java DOM解析器
文档对象模型是万维网联盟(W3C)的官方推荐.它定义了一个接口,使程序能够访问和更新样式,结构和XML文档的内容.支持DOM实现该接口的XML解析器. 何时使用? 在以下几种情况时,应该使用DOM解析 ...

随机推荐

参考 generate-parentheses
分析: 关键:当前位置左括号不少于右括号图是什么? 节点:目前位置左括号和右括号数(x,y)(x>=y) 边:从(x,y)到(x+1,y)和(x,y+1) ...
HTML基本元素的运用
段落相关标签<p><br><hr> 格式化相关标签<small><sub><sup><pre> 列表相关标签< ...
微软公布带外安全更新MS14-068
11月19日,微软公布了带外更新MS14-068以解决Windows 系统中的一个安全漏洞,该补丁安全等级为"严重". MS14-068 | Kerberos 中的漏洞可能同 ...
java . -- IDEA运行最简单的Java程序Hello World
以下内容基于IDEA, JAVA EE已经安装好的情况. 如果没有安装好,网上的安装教程非常多的. 下面开始,18个图解点击Finish 运行的代码如下: public class HelloWor ...
Ad Hoc Distributed Queries组件
http://www.cnblogs.com/870060760JR/p/6016080.html SQL Server 阻止了对组件“Ad Hoc Distributed Queries”的 STA ...
delphi 快捷键的使用
CTRL+SPACE 代码补全,很好用的(先改了输入法热键)CTRL+SHIFT+C 编写申明或者补上函数CTRL+SHIFT+↑(↓) 在过程.函数.事件内部, 可跳跃到相应的过程.函数.事件的定义 ...
hdu5861（Road）
题目链接:传送门题目大意:有n个点组成n-1段,每一段开着的时候都有花费Vi,有m组要求,对于每组要求 [x,y]之间可达,对于每一段你有一次开关的机会(最初都是关闭的) 问怎样安排段落得开闭时间 ...
[Algorithms] Graph Traversal (BFS and DFS)
Graph is an important data structure and has many important applications. Moreover, grach traversal ...
JavaScript学习笔记-构造函数
什么是构造函数简单说构造函数是类函数,函数名与类名完全相同,且无返回值.构造函数是类的一个特殊成员函数. JavaScript构造函数 * 在JavaScript的世界里没有类的概念,JavaScr ...
版本号风格为 Major.Minor.Patch
旧版本兼容 · 小程序 https://developers.weixin.qq.com/miniprogram/dev/framework/compatibility.html 微信客户端和小程序基 ...

PHP HTML DOM 解析器中文手册

简单的PHP HTML DOM 解析器中文手册 | PHP Simple HTML DOM Parser中文手册

目录

快速入门

如何创建HTML DOM 对象？

如何查找HTML元素?

如何访问HTML元素的属性?

如何遍历DOM树?

如何储存DOM对象中的内容?

如何自定义解析器方法？

PHP HTML DOM 解析器中文手册的更多相关文章

随机推荐

热门专题

PHP HTML DOM 解析器 中文手册

简单的PHP HTML DOM 解析器 中文手册 | PHP Simple HTML DOM Parser中文手册

目录

快速入门

如何创建HTML DOM 对象？

如何查找HTML元素?

如何访问HTML元素的属性?

如何遍历DOM树?

如何储存DOM对象中的内容?

如何自定义解析器方法？

PHP HTML DOM 解析器 中文手册的更多相关文章

随机推荐

热门专题

PHP HTML DOM 解析器中文手册

简单的PHP HTML DOM 解析器中文手册 | PHP Simple HTML DOM Parser中文手册

PHP HTML DOM 解析器中文手册的更多相关文章