老李分享:网页爬虫java实现

 

poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标。如果对课程感兴趣,请大家咨询qq:908821478,咨询电话010-84505200。

一. 设计思路

 

(1)一个收集所需网页全站或者指定子域名的链接队列

(2)一个存放将要访问的URL队列(跟上述有点重复, 用空间换时间, 提升爬取速度)

(3)一个保存已访问过URL的数据结构

数据结构有了, 接下来就是算法了, 一般推荐采取广度优先的爬取算法, 免得中了反爬虫的某些循环无限深度的陷阱。

使用了 jsoup (一个解析HTML元素的Lib)和 httpclient (网络请求包)来简化代码实现。

二. 代码实现

上述三种数据结构:

// 已爬取URL <URL, isAccess>
final static ConcurrentHashMap<String, Boolean> urlQueue = new ConcurrentHashMap<String, Boolean>();

// 待爬取URL
final static ConcurrentLinkedDeque<String> urlWaitingQueue = new ConcurrentLinkedDeque<String>();

// 待扫描网页URL队列
final static ConcurrentLinkedDeque<String> urlWaitingScanQueue = new ConcurrentLinkedDeque<String>();

入队等待:

/**

* url store in the waiting queue

* @param originalUrl

* @throws Exception

*/

private static void enterWaitingQueue(final String originalUrl) throws Exception{

String url = urlWaitingScanQueue.poll();

// if accessed, ignore the url

/*while (urlQueue.containsKey(url)) {

url = urlWaitingQueue.poll();

}*/

final String finalUrl = url;

Thread.sleep(600);

new Thread(new Runnable() {

public void run() {

try{

if (finalUrl != null) {

Connection conn = Jsoup.connect(finalUrl);

Document doc = conn.get();

//urlQueue.putIfAbsent(finalUrl, Boolean.TRUE); // accessed

logger.info("扫描网页URL: " + finalUrl);

Elements links = doc.select("a[href]");

for (int linkNum = 0; linkNum < links.size(); linkNum++) {

Element element = links.get(linkNum);

String suburl = element.attr("href");

// 某条件下, 并且原来没访问过

if (!urlQueue.containsKey(suburl)) {

urlWaitingScanQueue.offer(suburl);

urlWaitingQueue.offer(suburl);

logger.info("URL入队等待" + linkNum + ": " + suburl);

}

}

}

}

} catch (Exception ee) {

logger.error("muti thread executing error, url: " + finalUrl, ee);

}

}

}).start();

}

访问页面:

private static void viewPages() throws Exception{

Thread.sleep(500);

new Thread(new Runnable() {

@Override

public void run() {

try {

while(!urlWaitingQueue.isEmpty()) {

String url = urlWaitingQueue.peek();

final String finalUrl = url;

// build a client, like open a browser

CloseableHttpClient httpClient = HttpClients.createDefault();

// create get method, like input url in the browser

//HttpGet httpGet = new HttpGet("http://www.dxy.cn");

HttpPost httpPost = new HttpPost(finalUrl);

StringBuffer stringBuffer = new StringBuffer();

HttpResponse response;

//List<NameValuePair> keyValue = new ArrayList<NameValuePair>();

//  Post parameter

//            keyValue.add(new BasicNameValuePair("username", "zhu"));

//

//            httpPost.setEntity(new UrlEncodedFormEntity(keyValue, "UTF-8"));

// access and get response

response = httpClient.execute(httpPost);

// record access URL

urlQueue.putIfAbsent(finalUrl, Boolean.TRUE);

if (response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {

HttpEntity httpEntity = response.getEntity();

if (httpEntity != null) {

logger.info("viewPages访问URL:" + finalUrl);

BufferedReader reader = new BufferedReader(

new InputStreamReader(httpEntity.getContent(), "UTF-8"));

String line = null;

if (httpEntity.getContentLength() > 0) {

stringBuffer = new StringBuffer((int) httpEntity.getContentLength());

while ((line = reader.readLine()) != null) {

stringBuffer.append(line);

}

System.out.println(finalUrl + "内容: " + stringBuffer);

}

}

}

}

} catch (Exception e) {

logger.error("view pages error", e);

}

}

}).start();

}

三. 总结及将来要实现功能

以上贴出了简易版Java爬虫的核心实现模块, 基本上拿起来就能测试。

控制爬取速度(调度模块), 使用代理IP访问(收集网络代理模块)的实现在你可以在自己的版本中会慢慢加上...

老李分享:网页爬虫java实现的更多相关文章

  1. 老李分享:《Java Performance》笔记1——性能分析基础 1

    老李分享:<Java Performance>笔记1——性能分析基础   1.性能分析两种方法: (1).自顶向下: 应用开发人员通过着眼于软件栈顶层的应用,从上往下寻找性能优化的机会. ...

  2. 网页爬虫的设计与实现(Java版)

    网页爬虫的设计与实现(Java版)     最近为了练手而且对网页爬虫也挺感兴趣,决定自己写一个网页爬虫程序. 首先看看爬虫都应该有哪些功能. 内容来自(http://www.ibm.com/deve ...

  3. POPTEST老李分享DOM解析XML之java

    POPTEST老李分享DOM解析XML之java   Java提供了两种XML解析器:树型解释器DOM(Document Object Model,文档对象模型),和流机制解析器SAX(Simple ...

  4. 老李分享:loadrunner的java user脚本开发

    老李分享:loadrunner的java user脚本开发 poptest在性能测试loadrunner的课程里,以web协议为主,同时也讲解其他协议的脚本开发,对于一个性能测试工程师需要掌握一个以上 ...

  5. 老李案例分享:定位JAVA内存溢出

    老李案例分享:定位JAVA内存溢出   poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的loadrunner的培 ...

  6. java实现网页爬虫

    接着上面一篇对爬虫需要的java知识,这一篇目的就是在于网页爬虫的实现,对数据的获取,以便分析. -----> 目录:   1.爬虫原理 2.本地文件数据提取及分析 3.单网页数据的读取 4.运 ...

  7. JAVA之旅(三十四)——自定义服务端,URLConnection,正则表达式特点,匹配,切割,替换,获取,网页爬虫

    JAVA之旅(三十四)--自定义服务端,URLConnection,正则表达式特点,匹配,切割,替换,获取,网页爬虫 我们接着来说网络编程,TCP 一.自定义服务端 我们直接写一个服务端,让本机去连接 ...

  8. Java正则表达式--网页爬虫

    网页爬虫:其实就一个程序用于在互联网中获取符合指定规则的数据 爬取邮箱地址,爬取的源不同,本地爬取或者是网络爬取 (1)爬取本地数据: public static List<String> ...

  9. Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱(转)

    原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘 曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开 ...

随机推荐

  1. jquery和javascript的区别(常用方法比较)

    jquery 就对javascript的一个扩展,封装,就是让javascript更好用,更简单.人家怎么说的来着,jquery就是要用更少的代码,漂亮的完成更多的功能.JavaScript 与JQu ...

  2. TJOI2015 day1解题报告

    博客园的编辑器真的是太蛋疼了= =,想用tex然后上jpg又贴不了链接,真的很纠结啊= = T1:[TJOI2015]线性代数 描述:戳上面吧= = 首先这道题我觉得是这套题最漂亮的一道题了(虽然说学 ...

  3. cura-engine学习(1)

    cura-engine为开源3D打印软件cura的核心引擎代码,详细介绍参看github主页.现在学习的是一个简单版的https://github.com/repetier/CuraEngine,最新 ...

  4. 前端学PHP之日期与时间

    前面的话 在Web程序开发时,时间发挥着重要的作用,不仅在数据存储和显示时需要日期和时间的参与,好多功能模块的开发,时间通常都是至关重要的.网页静态化需要判断缓存时间.页面访问消耗的时间需要计算.根据 ...

  5. [编织消息框架][设计协议]优化long,int转换

    理论部分 一个long占8byte,大多数应用业数值不超过int每次传输多4byte会很浪费 有没有什么办法可以压缩long或int呢? 答案是有的,原理好简单,如果数值不超过int.max_valu ...

  6. Laravel笔记目录

    一.MVC 1.路由 2.控制器与视图 3.控制器与路由的绑定 4.中间件 二.模式与数据库 1.数据库迁移 2.填充测试数据 3.ORM入门 4.分页 三.Laravel的生命周期 1.Larave ...

  7. 2017-3-2 C# WindowsForm 中label标签居中显示

    有时候label标签要输出 label.text=""; 的语句,那么要把这个语句居中显示 1.要取消他的Autosize的值 2.拉大这个框,设置里面的文本的TextAlign ...

  8. Eclipse的Spring IDE插件的安装和使用

    Spring IDE是Spring官方网站推荐的Eclipse插件,可提供在研发Spring时对Bean定义文件进行验证并以可视化的方式查看各个Bean之间的依赖关系等. 安装 使用Eclipse M ...

  9. 阿里巴巴Java开发手册快速学习

    Java作为一门名副其实的工业级语言,语法友好,学习简单,大规模的应用给代码质量的管控带来了困难,特别是团队开发中,开发过程中的规范会直接影响最终项目的稳定性. 善医者“未有形而除之”,提高工程健壮性 ...

  10. 需要接入的SDK包,一定要用最新版,否则后果很严重

    ios8更新后,原来的静态库不支持.导致一个bug连续测试好多天都没结果.