抓取HTML网页数据
(转)htmlparse filter使用
该类并不是一个通用的工具类,需要按自己的要求实现,这里只记录了Htmlparse.jar包的一些用法。仅此而已!
详细看这里:http://gundumw100.javaeye.com/blog/704311
import java.util.*;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.BodyTag;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException; public class HtmlparseUtil {
WebHttpClient util=new WebHttpClient(); public Map<String, String> linkGet(String url, String charset) {
String content=util.getWebContentByGet(url,charset);
Map<String, String> linkMap = new HashMap<String, String>();
try {
//开始解析
Parser parser = Parser.createParser(content, charset);
// 过滤出<a></a>标签
NodeFilter linkFilter = new NodeClassFilter(LinkTag.class);
NodeList list = parser.extractAllNodesThatMatch(linkFilter);
Node node = null;
for (int i = 0; i < list.size(); i++) {
node = list.elementAt(i);
// 获得网页中的链接map(href,text)
linkMap.put(((LinkTag) node).getLink(), this.processText(((LinkTag) node).getLinkText()));
}
} catch (ParserException e) {
e.printStackTrace();
}
return linkMap;
} public String bodyGet(String url, String charset) {
String content=util.getWebContentByGet(url,charset);
String body = "";
try {
Parser parser = Parser.createParser(content, charset);
// 过滤<body></body>标签
NodeFilter bodyFilter = new NodeClassFilter(BodyTag.class);
NodeList list = parser.extractAllNodesThatMatch(bodyFilter);
Node node = null;
for (int i = 0; i < list.size(); i++) {
node = list.elementAt(i);
// 获得网页内容 保存在content中
body = ((BodyTag) node).getBody();
}
} catch (ParserException e) {
e.printStackTrace();
}
return body;
} public Map<String,String> termGet(String url, String charset) {
String content=util.getWebContentByGet(url,charset); Map<String, String> map = new HashMap<String, String>();
try {
//开始解析
// 过滤出class为term的<span>元素
Parser parser = Parser.createParser(content, charset);
AndFilter filter =
new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","term")); Node node = null;
NodeList nodeList = parser.parse(filter); for (int i = 0; i < nodeList.size(); i++) {
node = nodeList.elementAt(i);
map.put("term", node.toPlainTextString());
}
// 过滤出class为start-time的<span>元素
Parser parser2 = Parser.createParser(content, charset);
AndFilter filter2 =
new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","start-time"));
NodeList nodeList2 = parser2.parse(filter2);
for (int i = 0; i < nodeList2.size(); i++) {
node = nodeList2.elementAt(i);
map.put("start-time", node.toPlainTextString());
}
// 过滤出id为J_SingleEndTimeLabel的<span>元素
Parser parser3 = Parser.createParser(content, charset);
AndFilter filter3 =
new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("id","J_SingleEndTimeLabel"));
NodeList nodeList3 = parser3.parse(filter3);
for (int i = 0; i < nodeList3.size(); i++) {
node = nodeList3.elementAt(i);
map.put("end-time", node.toPlainTextString());
} // 过滤出class为box post的<div>元素
Parser parser4 = Parser.createParser(content, charset);
AndFilter filter4 =
new AndFilter(new TagNameFilter("div"),new HasAttributeFilter("class","box post"));
NodeList nodeList4 = parser4.parse(filter4);
for (int i = 0; i < nodeList4.size(); i++) {
node = nodeList4.elementAt(i);
String temp=node.toPlainTextString().trim();
temp=temp.substring(10,20).trim();
map.put("pre-term", temp);
} // 过滤出class为J_AwardNumber的<span>元素
Parser parser5 = Parser.createParser(content, charset);
// AndFilter filter5 =
// new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","J_AwardNumber"));
NodeList nodeList5 = parser5.parse(new HasAttributeFilter("class","J_AwardNumber"));
StringBuffer buffer=new StringBuffer();
for (int i = 0; i < nodeList5.size(); i++) {
node = nodeList5.elementAt(i);
buffer.append(","+node.toPlainTextString());
}
buffer.append("|"); // 过滤出class为blue J_AwardNumber的<span>元素
Parser parser6 = Parser.createParser(content, charset);
// AndFilter filter6 =
// new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","blue J_AwardNumber"));
NodeList nodeList6 = parser6.parse(new HasAttributeFilter("class","blue J_AwardNumber"));
for (int i = 0; i < nodeList6.size(); i++) {
node = nodeList6.elementAt(i);
buffer.append(node.toPlainTextString()+",");
} map.put("numbers", buffer.toString());
} catch (ParserException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} return map;
} private String processText(String content){
content=content.trim().replaceAll(" ", "");
// content=content.replaceAll("<p>", "\n");
// content=content.replaceAll("</TD>", "");
// content=content.replaceAll("</div>", "");
// content=content.replaceAll("</a>", "");
// content=content.replaceAll("<a href=.*>", "");
return content;
} public static void main(String[] str) { String url="http://caipiao.taobao.com/lottery/order/lottery_dlt.htm?type=1";
HtmlparseUtil util=new HtmlparseUtil();
Map<String,String> map=util.termGet(url, "gb2312");
System.out.println("term="+map.get("term"));//<span class="term">第<em>10074</em>期</span>
System.out.println("start-time="+map.get("start-time"));//
System.out.println("end-time="+map.get("end-time"));//
System.out.println("pre-term="+map.get("pre-term"));//
System.out.println("numbers="+map.get("numbers"));// } }
抓取HTML网页数据的更多相关文章
- selenium抓取动态网页数据
1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进 ...
- 使用java开源工具httpClient及jsoup抓取解析网页数据
今天做项目的时候遇到这样一个需求,需要在网页上展示今日黄历信息,数据格式如下 公历时间:2016年04月11日 星期一 农历时间:猴年三月初五 天干地支:丙申年 壬辰月 癸亥日 宜:求子 祈福 开光 ...
- python网络爬虫抓取动态网页并将数据存入数据库MySQL
简述以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网页 ...
- 【转】详解抓取网站,模拟登陆,抓取动态网页的原理和实现(Python,C#等)
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
- Fiddler 详尽教程与抓取移动端数据包
转载自:http://blog.csdn.net/qq_21445563/article/details/51017605 阅读目录 1. Fiddler 抓包简介 1). 字段说明 2). Stat ...
- 使用Office 365抓取PM2.5数据
近日微软发布了Microsoft Flow,一个类似IFTTT自动化任务触发工具.例如,我们可以设置这样一个触发事件和对应的处理过程:当有人在微博上@我的时候,发一封邮件通知我:当我关注的博主有新文章 ...
- scrapy和selenium结合抓取动态网页
1.安装python (我用的是2.7版本的) 2.安装scrapy: 详情请参考 http://blog.csdn.net/wukaibo1986/article/details/8167590 ...
- Fiddler捕获抓取 App端数据包
最近项目设计到App抓包,所以采用Fiddler工具来采集获取APP数据包,但是fiddler对有些app是无法捕获到数据包的,以下是我的处理方法: 1. 我默认代理端口使用的是自定义的端口而不是默认 ...
- python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言)
python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言) 感觉要总结总结了,希望这次能写个系列文章分享分享心得,和大神们交流交流,提升提升. 因为 ...
随机推荐
- 解决 Jsp_Servlet 编码乱码问题
Tomcat8.0以上浏览器请求的数据编码格式(包含): Get请求的时候Tomcat用UTF-8处理 post请求的时候Tomcat用ISO8859-1处理 Tomcat8.0以下浏览器请求的数据编 ...
- 4、SpringBoot------邮件发送(2)
开发工具:STS 代码下载链接:https://github.com/theIndoorTrain/Springboot/tree/0d6194d6ea2d7f4e19791a3d3f3167f861 ...
- checkboxlist 如何配置数据源?
<f:CheckBoxList runat="server" ColumnNumber="4" ColumnVertical="true&quo ...
- 【c学习-2】
#include <stdio.h> #define MYVAR 18 int main(){ //float x=3.14; //x=3.14++; //printf("%c\ ...
- 关于json输出为null?
原因: 该字符中含了ASCII码ETB控制符,即\x17导致json解析失败 解决方案: $params = preg_replace('/[\x00-\x1F]/', '', $params); ...
- 搭建一个简单的dns缓存服务器
环境:linux 软件:bind97,bind97-utils, bind97-libs ip:192.168.192.130:192.168.192.131 -------------------- ...
- B1018 锤子剪刀布 (20分)
B1018 锤子剪刀布 (20分) 大家应该都会玩"锤子剪刀布"的游戏:两人同时给出手势. 现给出两人的交锋记录,请统计双方的胜.平.负次数,并且给出双方分别出什么手势的胜算最大. ...
- 寻找物体的凸包 opencv
凸包的含义: 在二维平面上给定点集,凸包就是将最外层的点连接起来构成的凸多边形.并且这个凸多边形能包含点集中所有的点.OPENCV中: convexHull函数用于寻找图像点集中的凸包.它有六个输入参 ...
- easyPOI导出excel报错
http-nio--exec- at :: - excel cell export error ,data is :com.jn.ssr.superrescue.web.qc.dto.Automati ...
- 区间DP入门题目合集
区间DP主要思想是先在小区间取得最优解,然后小区间合并时更新大区间的最优解. 基本代码: //mst(dp,0) 初始化DP数组 ;i<=n;i++) { dp[i][i]=初始 ...