抓取HTML网页数据

（转）htmlparse filter使用

该类并不是一个通用的工具类，需要按自己的要求实现，这里只记录了Htmlparse.jar包的一些用法。仅此而已！
详细看这里：http://gundumw100.javaeye.com/blog/704311

import java.util.*;

import org.htmlparser.Node;

import org.htmlparser.NodeFilter;

import org.htmlparser.Parser;

import org.htmlparser.filters.AndFilter;

import org.htmlparser.filters.HasAttributeFilter;

import org.htmlparser.filters.NodeClassFilter;

import org.htmlparser.filters.TagNameFilter;

import org.htmlparser.tags.BodyTag;

import org.htmlparser.tags.LinkTag;

import org.htmlparser.util.NodeList;

import org.htmlparser.util.ParserException;   

public class HtmlparseUtil {

    WebHttpClient util=new WebHttpClient();   

    public Map<String, String> linkGet(String url, String charset) {

        String content=util.getWebContentByGet(url,charset);

        Map<String, String> linkMap = new HashMap<String, String>();

        try {

            //开始解析

            Parser parser = Parser.createParser(content, charset);

            // 过滤出<a></a>标签

            NodeFilter linkFilter = new NodeClassFilter(LinkTag.class);

            NodeList list = parser.extractAllNodesThatMatch(linkFilter);

            Node node = null;

            for (int i = 0; i < list.size(); i++) {

                node = list.elementAt(i);

                // 获得网页中的链接map(href,text)

                linkMap.put(((LinkTag) node).getLink(), this.processText(((LinkTag) node).getLinkText()));

            }

        } catch (ParserException e) {

            e.printStackTrace();

        }

        return linkMap;

    }   

    public String bodyGet(String url, String charset) {

        String content=util.getWebContentByGet(url,charset);

        String body = "";

        try {

            Parser parser = Parser.createParser(content, charset);

            // 过滤<body></body>标签

            NodeFilter bodyFilter = new NodeClassFilter(BodyTag.class);

            NodeList list = parser.extractAllNodesThatMatch(bodyFilter);

            Node node = null;

            for (int i = 0; i < list.size(); i++) {

                node = list.elementAt(i);

                // 获得网页内容 保存在content中

                body = ((BodyTag) node).getBody();

            }

        } catch (ParserException e) {

            e.printStackTrace();

        }

        return body;

    }   

    public Map<String,String> termGet(String url, String charset) {

        String content=util.getWebContentByGet(url,charset);   

        Map<String, String> map = new HashMap<String, String>();

        try {

            //开始解析

            // 过滤出class为term的<span>元素

            Parser parser = Parser.createParser(content, charset);

            AndFilter filter =

                new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","term"));   

            Node node = null;

            NodeList nodeList = parser.parse(filter);   

            for (int i = 0; i < nodeList.size(); i++) {

                node = nodeList.elementAt(i);

                map.put("term", node.toPlainTextString());

            }

            // 过滤出class为start-time的<span>元素

            Parser parser2 = Parser.createParser(content, charset);

            AndFilter filter2 =

                new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","start-time"));

            NodeList nodeList2 = parser2.parse(filter2);

            for (int i = 0; i < nodeList2.size(); i++) {

                node = nodeList2.elementAt(i);

                map.put("start-time", node.toPlainTextString());

            }

            // 过滤出id为J_SingleEndTimeLabel的<span>元素

            Parser parser3 = Parser.createParser(content, charset);

            AndFilter filter3 =

                new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("id","J_SingleEndTimeLabel"));

            NodeList nodeList3 = parser3.parse(filter3);

            for (int i = 0; i < nodeList3.size(); i++) {

                node = nodeList3.elementAt(i);

                map.put("end-time", node.toPlainTextString());

            }   

            // 过滤出class为box post的<div>元素

            Parser parser4 = Parser.createParser(content, charset);

            AndFilter filter4 =

                new AndFilter(new TagNameFilter("div"),new HasAttributeFilter("class","box post"));

            NodeList nodeList4 = parser4.parse(filter4);

            for (int i = 0; i < nodeList4.size(); i++) {

                node = nodeList4.elementAt(i);

                String temp=node.toPlainTextString().trim();

                temp=temp.substring(10,20).trim();

                map.put("pre-term", temp);

            }   

            // 过滤出class为J_AwardNumber的<span>元素

            Parser parser5 = Parser.createParser(content, charset);

//          AndFilter filter5 =

//                new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","J_AwardNumber"));

            NodeList nodeList5 = parser5.parse(new HasAttributeFilter("class","J_AwardNumber"));

            StringBuffer buffer=new StringBuffer();

            for (int i = 0; i < nodeList5.size(); i++) {

                node = nodeList5.elementAt(i);

                buffer.append(","+node.toPlainTextString());

            }

            buffer.append("|");   

            // 过滤出class为blue J_AwardNumber的<span>元素

            Parser parser6 = Parser.createParser(content, charset);

//          AndFilter filter6 =

//                new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","blue J_AwardNumber"));

            NodeList nodeList6 = parser6.parse(new HasAttributeFilter("class","blue J_AwardNumber"));

            for (int i = 0; i < nodeList6.size(); i++) {

                node = nodeList6.elementAt(i);

                buffer.append(node.toPlainTextString()+",");

            }   

            map.put("numbers", buffer.toString());

        } catch (ParserException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }   

        return map;

    }   

    private String processText(String content){

        content=content.trim().replaceAll("&nbsp;", "");

//      content=content.replaceAll("<p>", "\n");

//      content=content.replaceAll("</TD>", "");

//      content=content.replaceAll("</div>", "");

//      content=content.replaceAll("</a>", "");

//      content=content.replaceAll("<a href=.*>", "");

        return content;

    }      

    public static void main(String[] str) {   

        String url="http://caipiao.taobao.com/lottery/order/lottery_dlt.htm?type=1";

        HtmlparseUtil util=new HtmlparseUtil();

        Map<String,String> map=util.termGet(url, "gb2312");

        System.out.println("term="+map.get("term"));//<span class="term">第<em>10074</em>期</span>

        System.out.println("start-time="+map.get("start-time"));//

        System.out.println("end-time="+map.get("end-time"));//

        System.out.println("pre-term="+map.get("pre-term"));//

        System.out.println("numbers="+map.get("numbers"));//   

    }   

}

抓取HTML网页数据的更多相关文章

selenium抓取动态网页数据
1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进 ...
使用java开源工具httpClient及jsoup抓取解析网页数据
今天做项目的时候遇到这样一个需求,需要在网页上展示今日黄历信息,数据格式如下公历时间:2016年04月11日星期一农历时间:猴年三月初五天干地支:丙申年壬辰月癸亥日宜:求子祈福开光 ...
python网络爬虫抓取动态网页并将数据存入数据库MySQL
简述以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网页 ...
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
Fiddler 详尽教程与抓取移动端数据包
转载自:http://blog.csdn.net/qq_21445563/article/details/51017605 阅读目录 1. Fiddler 抓包简介 1). 字段说明 2). Stat ...
使用Office 365抓取PM2.5数据
近日微软发布了Microsoft Flow,一个类似IFTTT自动化任务触发工具.例如,我们可以设置这样一个触发事件和对应的处理过程:当有人在微博上@我的时候,发一封邮件通知我:当我关注的博主有新文章 ...
scrapy和selenium结合抓取动态网页
1.安装python (我用的是2.7版本的) 2.安装scrapy: 详情请参考 http://blog.csdn.net/wukaibo1986/article/details/8167590 ...
Fiddler捕获抓取 App端数据包
最近项目设计到App抓包,所以采用Fiddler工具来采集获取APP数据包,但是fiddler对有些app是无法捕获到数据包的,以下是我的处理方法: 1. 我默认代理端口使用的是自定义的端口而不是默认 ...
python requests抓取NBA球员数据，pandas进行数据分析，echarts进行可视化 (前言)
python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言) 感觉要总结总结了,希望这次能写个系列文章分享分享心得,和大神们交流交流,提升提升. 因为 ...

随机推荐

利用python的numpy创建矩阵并对其赋值
创建一个3X3的矩阵并对其赋值: x = numpy.array([[1,2,3],[4,5,6],[7,8,9]]) print x print x.shape 运行结果: [[ ] [ ] [ ] ...
javaweb基础(37)_mysql数据库自动生成主键
测试脚本如下: 1 create table test1 2 ( 3 id int primary key auto_increment, 4 name varchar(20) 5 ); 测试代码: ...
C#操作Word，写数据，插入图片
本篇介绍的是如何在C#中往word里面写入数据. 如何在线的操作文档: c#在线操作文档关于Aspose.Word控件的介绍,请戳→ 介绍首先需要去下载这个dll文件,然后引用到你的项目当中.地 ...
基于centos7实现的nfs
NFS NFS(Network FileSystem,网络文件系统),最早由Sun公司所发展出来的,主要是通过网络让不同的主机.不同的操作系统,可以彼此分享个别档案,因此我们也可以简单把NFS看成是一 ...
java 计算数学表达式及执行脚本语言
java SE6中对常用的脚本语言做了支持. 可供使用者在java代码中执行脚本语言,还可以利用get("key"),put("key","value ...
Linux crontab 实现秒级定时任务
1 crontab 的延时: 原理:通过延时方法 sleep N 来实现每N秒执行. crontab -e 输入以下语句,然后 :wq 保存退出. * * * * * /usr/bin/curl ...
php获取设备的宽度和高度
php获取设备的宽度和高度如果前台没有传输当前请求的宽度和高度,我们有时候需要用php借助javascript获取屏幕的宽和高,以控制现实的样式. 代码如下: <?php /* * 获取设备宽 ...
pycharm中文乱码问题总结
前言: 这几天刚刚开始学习python,然后就安装了pycharm,但是那个中文乱码的问题真是让人心烦,在网上找了好久,都写得好乱,今天终于让我解决了,在这里总结一下经验,希望可以帮到你们问题:如下 ...
笔记-Python-language reference-5.the import system
笔记-Python-language reference-5.the import system 前言经常用到import,module,对其中的机制及原理有一定的了解,但没有将各种信息前后连通起来 ...
Apache服务配置
Apache 1.安装Apache服务第1步:把光盘设备中的系统镜像挂载到/media/cdrom目录. [root@zhangjh ~]# mkdir -p /media/cdrom/ [root ...

抓取HTML网页数据

（转）htmlparse filter使用

抓取HTML网页数据的更多相关文章

随机推荐

热门专题