大数据处理之道（htmlparser获取数据<一>）

一：简单介绍

（1）HTML Parser是一个用于解析Html的Java的库。可採用线性或嵌套两种方式。主要用于网页的转换或提取，他有一些特性：过滤器filter，遍历器visitors，通常的标签tagName和易用的JavaBeans。

它是一个高速，健壮，并严格測试过的组件。

（2）个人理解：HTMLParser遍历了网页的内容以后，以树（森林）结构保存了结果。各个节点代表HTML中的标签和属性值，很类似于XML解析器解析后的结果，也类似与html dom的结构。HTMLParser訪问结果内容的方法有两种：使用Filter和使用Visitor，一般Filter用的多一些，用于提取特定的网页信息。

（3）官方API说明（须要Google的）

二：主要函数功能说明：

（1）HTMLParser的核心模块是org.htmlparser.Parser类，这个类实际完毕了对于HTML页面的分析工作。这个类有以下几个构造函数：

public Parser ();

    public Parser (Lexer lexer, ParserFeedback fb);

   public Parser (URLConnection connection, ParserFeedback fb) throws ParserException;

    public Parser (String resource, ParserFeedback feedback) throws ParserException;

   public Parser (String resource) throws ParserException;

    public Parser (Lexer lexer);

    public Parser (URLConnection connection) throws ParserException;

    和一个静态类 public static Parser createParser (String html, String charset);

（2）HTMLParser将解析过的信息保存为一个树的结构。Node是信息保存的数据类型基础。

请看Node的定义：

public interface Node extends Cloneable;

Node中包括的方法有几类：

对于树型结构进行遍历的函数，这些函数最easy理解：

Node getParent ()：取得父节点

NodeList getChildren ()：取得子节点的列表

Node getFirstChild ()：取得第一个子节点

Node getLastChild ()：取得最后一个子节点

Node getPreviousSibling ()：取得前一个兄弟（不好意思，英文是兄弟姐妹。直译太麻烦并且不符合习惯，对不起女同胞了）

Node getNextSibling ()：取得下一个兄弟节点

取得Node内容的函数：

String getText ()：取得文本

String toPlainTextString()：取得纯文本信息。

String toHtml () ：取得HTML信息（原始HTML）

String toHtml (boolean verbatim)：取得HTML信息（原始HTML）

String toString ()：取得字符串信息（原始HTML）

Page getPage ()：取得这个Node相应的Page对象

int getStartPosition ()：取得这个Node在HTML页面中的起始位置

int getEndPosition ()：取得这个Node在HTML页面中的结束位置

（3）其他函数：

void collectInto (NodeList list, NodeFilter filter)：基于filter的条件对于这个节点进行过滤，符合条件的节点放到list中。

用于Visitor遍历的函数：

void accept (NodeVisitor visitor)：对这个Node应用visitor

用于改动内容的函数。这类用得比較少：

void setPage (Page page)：设置这个Node相应的Page对象

void setText (String text)：设置文本

void setChildren (NodeList children)：设置子节点列表

（4）用于Filter过滤的函数

顾名思义。Filter就是对于结果进行过滤，取得须要的内容。HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filter，也能够分为几类。

推断类Filter：

TagNameFilter ----- html标签指定指定过滤器

HasAttributeFilter ------ 属性和属性值指定过滤器

HasChildFilter

HasParentFilter

HasSiblingFilter

IsEqualFilter

逻辑运算Filter：

AndFilter ------ 同一时候满足两个或多个过滤条件的过滤器

NotFilter ------ 非

OrFilter ------- 或

XorFilter

其它Filter：

NodeClassFilter

StringFilter ------- 过滤敏感信息的过滤器

LinkStringFilter --------- 过滤敏感链接信息的过滤器

LinkRegexFilter

RegexFilter

CssSelectorNodeFilter

全部的Filter类都实现了org.htmlparser.NodeFilter接口。

这个接口仅仅有一个主要函数：

boolean accept (Node node);

各个子类分别实现这个函数。用于推断输入的Node是否符合这个Filter的过滤条件，假设符合。返回true。否则返回false。

三：html结构解析图示说明

（1）html代码

<html>

   <head>

   <title>HTML DOM</title>

   </head>

   <body>

   <h1>DOM的结构</h1>

   <p><a href="href">链接</a></p>

   </body>

</html>

（2）html的dom结构（即parser后的解析树形结构）

（3）说明

由结构图中我们能够看到。整个文档就是一个文档节点。
而每个HMTL标签都是一个元素节点。
标签中的文字则是文字节点。
标签的属性是属性节点。
一切都是节点……

总之，节点树的概念从图中一目了然。最上面的就是“树根”了。节点之间有父子关系。祖先与子孙关系。兄妹关系。这些关系从图中也非常好看出来，直接连线的就是父子关系了。

而有一个父亲的就是兄妹关系……很多其它dom详见W3C

大数据处理之道（htmlparser获取数据<一>）的更多相关文章

大数据处理之道（十分钟学会Python）
一:python 简介 (1)Python的由来 Python(英语发音:/ˈpaɪθən/), 是一种面向对象.解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个 ...
大数据处理之道（实验方法<二>）
一:交叉验证(crossvalidation)(附实验的三种方法)方法简单介绍 (1) 定义:交叉验证(Cross-validation)主要用于建模应用中,比如PCR(Principal Com ...
Vue Router路由守卫妙用：异步获取数据成功后再进行路由跳转并传递数据，失败则不进行跳转
问题引入试想这样一个业务场景: 在用户输入数据,点击提交按钮后,这时发起了ajax请求,如果请求成功, 则跳转到详情页面并展示详情数据,失败则不跳转到详情页面,只是在当前页面给出错误消息. 难点所在 ...
第五章大数据平台与技术第12讲大数据处理平台Spark
Spark支持多种的编程语言对比scala和Java编程上节课的计数程序.相比之下,scala简洁明了. Hadoop的IO开销大导致了延迟高,也就是说任务和任务之间涉及到I/O操作.前一个任务完成 ...
MySQL随机获取数据的方法，支持大数据量
最近做项目,需要做一个从mysql数据库中随机取几条数据出来. 总所周知,order by rand 会死人的..因为本人对大数据量方面的只是了解的很少,无解,去找百度老师..搜索结果千篇一律.特发到 ...
Statement和PreparedStatement的特点 MySQL数据库分页存取大对象批处理获取数据库主键值
1 Statement和PreparedStatement的特点 a)对于创建和删除表或数据库,我们可以使用executeUpdate(),该方法返回0,表示未影向表中任何记录 b)对于创建和 ...
【MySQL】随机获取数据的方法，支持大数据量
在mysql中带了随机取数据的函数,在mysql中我们会有rand()函数,很多朋友都会直接使用,如果几百条数据肯定没事,如果几万或百万时你会发现,直接使用是错误的.下面我来介绍随机取数据一些优化方法 ...
【大数据】大数据处理-Lambda架构-Kappa架构
大数据处理-Lambda架构-Kappa架构 elasticsearch-head Elasticsearch-sql client NLPchina/elasticsearch-sql: Use S ...
互联网大规模数据分析技术（自主模式）第五章大数据平台与技术第10讲大数据处理平台Hadoop
大规模的数据计算对于数据挖掘领域当中的作用.两大主要挑战:第一.如何实现分布式的计算第二.分布式并行编程.Hadoop平台以及Map-reduce的编程方式解决了上面的几个问题.这是谷歌的一个最基本 ...

随机推荐

LCIS 最长上升公共子序列问题
首先点名一个串叫 L1,另一个叫L2. 明显的是一个DP,那么我们来探讨下如何求得答案. 朴素的算法首先我们定义状态$dp[ i ][ j ]$表示L1中前i个与L2中前j个的最长公共上升子序列. ...
Luogu-P1020（导弹拦截）（DP，LIS ，二分优化)
Luogu-P1020(导弹拦截)(DP) 题意: 给n(n<=100000) 个数字,求最长不上升子序列的长度和最少的不上升子序列的个数. 分析: 第一问: 求最长不上升子序列有 O(n^2) ...
MySQL连接使用及分类
SQL连接 SQL 连接(JOIN)子句用于将数据库中两个或者两个以上表中的记录组合起来.连接通过共有值将不同表中的字段组合在一起. 考虑下面两个表,(a)CUSTOMERS 表:+----+---- ...
ssh和sshd服务
1.1 对称加密和非对称加密对称加密:加密和解密使用一样的算法,只要解密时提供与加密时一致的密码就可以完成解密.例如QQ登录密码,银行卡密码,只要保证密码正确就可以. 非对称加密:通过公钥(publ ...
laravel使用总结（一）
安装 composer create-project laravel/laravel learnlaravel5 --prefer-dist v5.3.* 安装成功之后会自动生成一个key > ...
【URAL 1989】 Subpalindromes（线段树维护哈希）
Description You have a string and queries of two types: replace i'th character of the string by char ...
数据结构实验7：实现二分查找、二叉排序（查找）树和AVL树
实验7 学号: 姓名: 专业: 7.1实验目的 (1) 掌握顺序表的查找方法,尤其是二分查找方法. (2) 掌握二叉排序树的建立及查找. 查找是软件设计中的最常用的运算,查找所涉及到 ...
HDU-3746Cyclic Nacklace，next数组简单应用。
Cyclic Nacklace 节省篇幅不粘题面了... 看懂题后脑袋里略过KMP,学过但没怎么用过,又直接跳下一题了.. 题意:给定一个字符串,可以从两边加上一些字符使其有循环节..求最少需要加多少 ...
洛谷 P2008 大朋友的数字
DP,动态规划树状数组最长不下降子序列 by GeneralLiu 题目就是说给一串由 0~9 组成的序列求以 i (1~n) 结尾的最长不下降子序列的和 (最长不下降子序 ...
从零开始写STL - 智能指针
从零开始写STL - 智能指针智能指针的分类及其特点: scoped_ptr:初始化获得资源控制权,在作用域结束释放资源 shared_ptr: 引用计数来控制共享资源,最后一个资源的引用被释放的时 ...

大数据处理之道 （htmlparser获取数据&lt;一&gt;）

大数据处理之道 （htmlparser获取数据&lt;一&gt;）的更多相关文章

随机推荐

热门专题

大数据处理之道（htmlparser获取数据<一>）

大数据处理之道（htmlparser获取数据<一>）的更多相关文章