抓取HTML网页数据

（转）htmlparse filter使用

该类并不是一个通用的工具类，需要按自己的要求实现，这里只记录了Htmlparse.jar包的一些用法。仅此而已！
详细看这里：http://gundumw100.javaeye.com/blog/704311

import java.util.*;

import org.htmlparser.Node;

import org.htmlparser.NodeFilter;

import org.htmlparser.Parser;

import org.htmlparser.filters.AndFilter;

import org.htmlparser.filters.HasAttributeFilter;

import org.htmlparser.filters.NodeClassFilter;

import org.htmlparser.filters.TagNameFilter;

import org.htmlparser.tags.BodyTag;

import org.htmlparser.tags.LinkTag;

import org.htmlparser.util.NodeList;

import org.htmlparser.util.ParserException;   

public class HtmlparseUtil {

    WebHttpClient util=new WebHttpClient();   

    public Map<String, String> linkGet(String url, String charset) {

        String content=util.getWebContentByGet(url,charset);

        Map<String, String> linkMap = new HashMap<String, String>();

        try {

            //开始解析

            Parser parser = Parser.createParser(content, charset);

            // 过滤出<a></a>标签

            NodeFilter linkFilter = new NodeClassFilter(LinkTag.class);

            NodeList list = parser.extractAllNodesThatMatch(linkFilter);

            Node node = null;

            for (int i = 0; i < list.size(); i++) {

                node = list.elementAt(i);

                // 获得网页中的链接map(href,text)

                linkMap.put(((LinkTag) node).getLink(), this.processText(((LinkTag) node).getLinkText()));

            }

        } catch (ParserException e) {

            e.printStackTrace();

        }

        return linkMap;

    }   

    public String bodyGet(String url, String charset) {

        String content=util.getWebContentByGet(url,charset);

        String body = "";

        try {

            Parser parser = Parser.createParser(content, charset);

            // 过滤<body></body>标签

            NodeFilter bodyFilter = new NodeClassFilter(BodyTag.class);

            NodeList list = parser.extractAllNodesThatMatch(bodyFilter);

            Node node = null;

            for (int i = 0; i < list.size(); i++) {

                node = list.elementAt(i);

                // 获得网页内容 保存在content中

                body = ((BodyTag) node).getBody();

            }

        } catch (ParserException e) {

            e.printStackTrace();

        }

        return body;

    }   

    public Map<String,String> termGet(String url, String charset) {

        String content=util.getWebContentByGet(url,charset);   

        Map<String, String> map = new HashMap<String, String>();

        try {

            //开始解析

            // 过滤出class为term的<span>元素

            Parser parser = Parser.createParser(content, charset);

            AndFilter filter =

                new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","term"));   

            Node node = null;

            NodeList nodeList = parser.parse(filter);   

            for (int i = 0; i < nodeList.size(); i++) {

                node = nodeList.elementAt(i);

                map.put("term", node.toPlainTextString());

            }

            // 过滤出class为start-time的<span>元素

            Parser parser2 = Parser.createParser(content, charset);

            AndFilter filter2 =

                new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","start-time"));

            NodeList nodeList2 = parser2.parse(filter2);

            for (int i = 0; i < nodeList2.size(); i++) {

                node = nodeList2.elementAt(i);

                map.put("start-time", node.toPlainTextString());

            }

            // 过滤出id为J_SingleEndTimeLabel的<span>元素

            Parser parser3 = Parser.createParser(content, charset);

            AndFilter filter3 =

                new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("id","J_SingleEndTimeLabel"));

            NodeList nodeList3 = parser3.parse(filter3);

            for (int i = 0; i < nodeList3.size(); i++) {

                node = nodeList3.elementAt(i);

                map.put("end-time", node.toPlainTextString());

            }   

            // 过滤出class为box post的<div>元素

            Parser parser4 = Parser.createParser(content, charset);

            AndFilter filter4 =

                new AndFilter(new TagNameFilter("div"),new HasAttributeFilter("class","box post"));

            NodeList nodeList4 = parser4.parse(filter4);

            for (int i = 0; i < nodeList4.size(); i++) {

                node = nodeList4.elementAt(i);

                String temp=node.toPlainTextString().trim();

                temp=temp.substring(10,20).trim();

                map.put("pre-term", temp);

            }   

            // 过滤出class为J_AwardNumber的<span>元素

            Parser parser5 = Parser.createParser(content, charset);

//          AndFilter filter5 =

//                new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","J_AwardNumber"));

            NodeList nodeList5 = parser5.parse(new HasAttributeFilter("class","J_AwardNumber"));

            StringBuffer buffer=new StringBuffer();

            for (int i = 0; i < nodeList5.size(); i++) {

                node = nodeList5.elementAt(i);

                buffer.append(","+node.toPlainTextString());

            }

            buffer.append("|");   

            // 过滤出class为blue J_AwardNumber的<span>元素

            Parser parser6 = Parser.createParser(content, charset);

//          AndFilter filter6 =

//                new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","blue J_AwardNumber"));

            NodeList nodeList6 = parser6.parse(new HasAttributeFilter("class","blue J_AwardNumber"));

            for (int i = 0; i < nodeList6.size(); i++) {

                node = nodeList6.elementAt(i);

                buffer.append(node.toPlainTextString()+",");

            }   

            map.put("numbers", buffer.toString());

        } catch (ParserException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }   

        return map;

    }   

    private String processText(String content){

        content=content.trim().replaceAll("&nbsp;", "");

//      content=content.replaceAll("<p>", "\n");

//      content=content.replaceAll("</TD>", "");

//      content=content.replaceAll("</div>", "");

//      content=content.replaceAll("</a>", "");

//      content=content.replaceAll("<a href=.*>", "");

        return content;

    }      

    public static void main(String[] str) {   

        String url="http://caipiao.taobao.com/lottery/order/lottery_dlt.htm?type=1";

        HtmlparseUtil util=new HtmlparseUtil();

        Map<String,String> map=util.termGet(url, "gb2312");

        System.out.println("term="+map.get("term"));//<span class="term">第<em>10074</em>期</span>

        System.out.println("start-time="+map.get("start-time"));//

        System.out.println("end-time="+map.get("end-time"));//

        System.out.println("pre-term="+map.get("pre-term"));//

        System.out.println("numbers="+map.get("numbers"));//   

    }   

}

抓取HTML网页数据的更多相关文章

selenium抓取动态网页数据
1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进 ...
使用java开源工具httpClient及jsoup抓取解析网页数据
今天做项目的时候遇到这样一个需求,需要在网页上展示今日黄历信息,数据格式如下公历时间:2016年04月11日星期一农历时间:猴年三月初五天干地支:丙申年壬辰月癸亥日宜:求子祈福开光 ...
python网络爬虫抓取动态网页并将数据存入数据库MySQL
简述以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网页 ...
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
Fiddler 详尽教程与抓取移动端数据包
转载自:http://blog.csdn.net/qq_21445563/article/details/51017605 阅读目录 1. Fiddler 抓包简介 1). 字段说明 2). Stat ...
使用Office 365抓取PM2.5数据
近日微软发布了Microsoft Flow,一个类似IFTTT自动化任务触发工具.例如,我们可以设置这样一个触发事件和对应的处理过程:当有人在微博上@我的时候,发一封邮件通知我:当我关注的博主有新文章 ...
scrapy和selenium结合抓取动态网页
1.安装python (我用的是2.7版本的) 2.安装scrapy: 详情请参考 http://blog.csdn.net/wukaibo1986/article/details/8167590 ...
Fiddler捕获抓取 App端数据包
最近项目设计到App抓包,所以采用Fiddler工具来采集获取APP数据包,但是fiddler对有些app是无法捕获到数据包的,以下是我的处理方法: 1. 我默认代理端口使用的是自定义的端口而不是默认 ...
python requests抓取NBA球员数据，pandas进行数据分析，echarts进行可视化 (前言)
python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言) 感觉要总结总结了,希望这次能写个系列文章分享分享心得,和大神们交流交流,提升提升. 因为 ...

随机推荐

解决 Jsp_Servlet 编码乱码问题
Tomcat8.0以上浏览器请求的数据编码格式(包含): Get请求的时候Tomcat用UTF-8处理 post请求的时候Tomcat用ISO8859-1处理 Tomcat8.0以下浏览器请求的数据编 ...
4、SpringBoot------邮件发送（2）
开发工具:STS 代码下载链接:https://github.com/theIndoorTrain/Springboot/tree/0d6194d6ea2d7f4e19791a3d3f3167f861 ...
checkboxlist 如何配置数据源？
<f:CheckBoxList runat="server" ColumnNumber="4" ColumnVertical="true&quo ...
【c学习-2】
#include <stdio.h> #define MYVAR 18 int main(){ //float x=3.14; //x=3.14++; //printf("%c\ ...
关于json输出为null？
原因: 该字符中含了ASCII码ETB控制符,即\x17导致json解析失败解决方案: $params = preg_replace('/[\x00-\x1F]/', '', $params); ...
搭建一个简单的dns缓存服务器
环境:linux 软件:bind97,bind97-utils, bind97-libs ip:192.168.192.130:192.168.192.131 -------------------- ...
B1018 锤子剪刀布（20分）
B1018 锤子剪刀布 (20分) 大家应该都会玩"锤子剪刀布"的游戏:两人同时给出手势. 现给出两人的交锋记录,请统计双方的胜.平.负次数,并且给出双方分别出什么手势的胜算最大. ...
寻找物体的凸包 opencv
凸包的含义: 在二维平面上给定点集,凸包就是将最外层的点连接起来构成的凸多边形.并且这个凸多边形能包含点集中所有的点.OPENCV中: convexHull函数用于寻找图像点集中的凸包.它有六个输入参 ...
easyPOI导出excel报错
http-nio--exec- at :: - excel cell export error ,data is :com.jn.ssr.superrescue.web.qc.dto.Automati ...
区间DP入门题目合集
区间DP主要思想是先在小区间取得最优解,然后小区间合并时更新大区间的最优解. 基本代码: //mst(dp,0) 初始化DP数组 ;i<=n;i++) { dp[i][i]=初始 ...

抓取HTML网页数据

（转）htmlparse filter使用

抓取HTML网页数据的更多相关文章

随机推荐

热门专题