老李分享：网页爬虫java实现

poptest是国内唯一一家培养测试开发工程师的培训机构，以学员能胜任自动化测试，性能测试，测试工具开发等工作为目标。如果对课程感兴趣，请大家咨询qq：908821478，咨询电话010-84505200。

一. 设计思路

（1）一个收集所需网页全站或者指定子域名的链接队列

（2）一个存放将要访问的URL队列（跟上述有点重复，用空间换时间，提升爬取速度）

（3）一个保存已访问过URL的数据结构

数据结构有了，接下来就是算法了，一般推荐采取广度优先的爬取算法，免得中了反爬虫的某些循环无限深度的陷阱。

使用了 jsoup （一个解析HTML元素的Lib）和 httpclient (网络请求包)来简化代码实现。

二. 代码实现

上述三种数据结构：

// 已爬取URL <URL, isAccess>
final static ConcurrentHashMap<String, Boolean> urlQueue = new ConcurrentHashMap<String, Boolean>();

// 待爬取URL
final static ConcurrentLinkedDeque<String> urlWaitingQueue = new ConcurrentLinkedDeque<String>();

// 待扫描网页URL队列
final static ConcurrentLinkedDeque<String> urlWaitingScanQueue = new ConcurrentLinkedDeque<String>();

入队等待：

/**

* url store in the waiting queue

* @param originalUrl

* @throws Exception

private static void enterWaitingQueue(final String originalUrl) throws Exception{

String url = urlWaitingScanQueue.poll();

// if accessed, ignore the url

/*while (urlQueue.containsKey(url)) {

url = urlWaitingQueue.poll();

}*/

final String finalUrl = url;

Thread.sleep(600);

new Thread(new Runnable() {

public void run() {

try{

if (finalUrl != null) {

Connection conn = Jsoup.connect(finalUrl);

Document doc = conn.get();

//urlQueue.putIfAbsent(finalUrl, Boolean.TRUE); // accessed

logger.info("扫描网页URL： " + finalUrl);

Elements links = doc.select("a[href]");

for (int linkNum = 0; linkNum < links.size(); linkNum++) {

Element element = links.get(linkNum);

String suburl = element.attr("href");

// 某条件下，并且原来没访问过

if (!urlQueue.containsKey(suburl)) {

urlWaitingScanQueue.offer(suburl);

urlWaitingQueue.offer(suburl);

logger.info("URL入队等待" + linkNum + ": " + suburl);

}

} catch (Exception ee) {

logger.error("muti thread executing error, url: " + finalUrl, ee);

}

}).start();

}

访问页面：

private static void viewPages() throws Exception{

Thread.sleep(500);

new Thread(new Runnable() {

@Override

public void run() {

try {

while(!urlWaitingQueue.isEmpty()) {

String url = urlWaitingQueue.peek();

final String finalUrl = url;

// build a client, like open a browser

CloseableHttpClient httpClient = HttpClients.createDefault();

// create get method, like input url in the browser

//HttpGet httpGet = new HttpGet("http://www.dxy.cn");

HttpPost httpPost = new HttpPost(finalUrl);

StringBuffer stringBuffer = new StringBuffer();

HttpResponse response;

//List<NameValuePair> keyValue = new ArrayList<NameValuePair>();

// Post parameter

// keyValue.add(new BasicNameValuePair("username", "zhu"));

// httpPost.setEntity(new UrlEncodedFormEntity(keyValue, "UTF-8"));

// access and get response

response = httpClient.execute(httpPost);

// record access URL

urlQueue.putIfAbsent(finalUrl, Boolean.TRUE);

if (response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {

HttpEntity httpEntity = response.getEntity();

if (httpEntity != null) {

logger.info("viewPages访问URL：" + finalUrl);

BufferedReader reader = new BufferedReader(

new InputStreamReader(httpEntity.getContent(), "UTF-8"));

String line = null;

if (httpEntity.getContentLength() > 0) {

stringBuffer = new StringBuffer((int) httpEntity.getContentLength());

while ((line = reader.readLine()) != null) {

stringBuffer.append(line);

}

System.out.println(finalUrl + "内容: " + stringBuffer);

}

} catch (Exception e) {

logger.error("view pages error", e);

}

}).start();

}

三. 总结及将来要实现功能

以上贴出了简易版Java爬虫的核心实现模块，基本上拿起来就能测试。

控制爬取速度（调度模块），使用代理IP访问（收集网络代理模块）的实现在你可以在自己的版本中会慢慢加上...

老李分享：网页爬虫java实现的更多相关文章

老李分享：《Java Performance》笔记1——性能分析基础 1
老李分享:<Java Performance>笔记1——性能分析基础 1.性能分析两种方法: (1).自顶向下: 应用开发人员通过着眼于软件栈顶层的应用,从上往下寻找性能优化的机会. ...
网页爬虫的设计与实现（Java版）
网页爬虫的设计与实现(Java版) 最近为了练手而且对网页爬虫也挺感兴趣,决定自己写一个网页爬虫程序. 首先看看爬虫都应该有哪些功能. 内容来自(http://www.ibm.com/deve ...
POPTEST老李分享DOM解析XML之java
POPTEST老李分享DOM解析XML之java Java提供了两种XML解析器:树型解释器DOM(Document Object Model,文档对象模型),和流机制解析器SAX(Simple ...
老李分享：loadrunner的java user脚本开发
老李分享:loadrunner的java user脚本开发 poptest在性能测试loadrunner的课程里,以web协议为主,同时也讲解其他协议的脚本开发,对于一个性能测试工程师需要掌握一个以上 ...
老李案例分享：定位JAVA内存溢出
老李案例分享:定位JAVA内存溢出 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的loadrunner的培 ...
java实现网页爬虫
接着上面一篇对爬虫需要的java知识,这一篇目的就是在于网页爬虫的实现,对数据的获取,以便分析. -----> 目录: 1.爬虫原理 2.本地文件数据提取及分析 3.单网页数据的读取 4.运 ...
JAVA之旅（三十四）——自定义服务端，URLConnection，正则表达式特点，匹配，切割，替换，获取，网页爬虫
JAVA之旅(三十四)--自定义服务端,URLConnection,正则表达式特点,匹配,切割,替换,获取,网页爬虫我们接着来说网络编程,TCP 一.自定义服务端我们直接写一个服务端,让本机去连接 ...
Java正则表达式--网页爬虫
网页爬虫:其实就一个程序用于在互联网中获取符合指定规则的数据爬取邮箱地址,爬取的源不同,本地爬取或者是网络爬取 (1)爬取本地数据: public static List<String> ...
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱（转）
原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开 ...

随机推荐

FTPS (FTP over SSL) vs. SFTP (SSH 文件传输协议): 我们如何做出选择
第一个RFC的FTP协议发布通过网络使用FTP协议(由RFC 959或更高版本)的文件传输始于1980年,FTP提供上传,下载和删除文件,创建和删除目录,读取目录内容的功能.虽然FTP是非常受欢迎的, ...
ImageSpan图片不能居中的问题
点击下载:MyImageSpan.txt 使用ImageSpan的童鞋应该都会遇到这样一个困惑,图片不能居中显示,ImageSpan中只有ImageSpan.ALIGN_BASELINE与ImageS ...
MSSQL数据批量插入优化详细
序言现在有一个需求是将10w条数据插入到MSSQL数据库中,表结构如下,你会怎么做,你感觉插入10W条数据插入到MSSQL如下的表中需要多久呢? 或者你的批量数据是如何插入的呢?我今天就此问题做个探 ...
Error: Cannot find module 'gulp-clone'问题的解决
安装完gulp环境,并且配置好gulpfile.js,执行静态文件压缩和代码混淆时,出现如下错误: Error: Cannot find module 'gulp-clone' Error: Cann ...
Linux配置vnc
yum install tigervnc-server vim /etc/sysconfig/vncservers 查看配置文件,修改最后面两行配置文件参数如下: VNCSERVERS="1 ...
概念 : 用户>角色>权限的管理（Role-Based Access Control）
RBAC 用户管理规范概念:每个user有多个accounts,每个account 有一个account binding,有多个roles和多个tasks 举个例子:某个用户现在manager,这是 ...
不要怂，就是GAN (生成式对抗网络) （六）：Wasserstein GAN（WGAN） TensorFlow 代码
先来梳理一下我们之前所写的代码,原始的生成对抗网络,所要优化的目标函数为: 此目标函数可以分为两部分来看: ①固定生成器 G,优化判别器 D, 则上式可以写成如下形式: 可以转化为最小化形式: 我们编 ...
Java版本
Java版本 Java版本分为J2SE(Java 2 Standard Edition,Java标准版).J2ME(Java 2 Micro Edition,Java微型版本)和J2EE(Java 2 ...
第36篇 Asp.Net源码解析(一)
上面两篇文章说了http协议和IIS处理,这次说下当IIS把请求交给Asp.net后的过程. AppManagerAppDomainFactory 当IIS把请求交给asp.net时候,如果AppDo ...
《Django By Example》第八章中文翻译（个人学习，渣翻）
书籍出处:https://www.packtpub.com/web-development/django-example 原作者:Antonio Melé (译者注:还有4章!还有4章全书就翻译完成了 ...

老李分享：网页爬虫java实现

老李分享：网页爬虫java实现

老李分享：网页爬虫java实现的更多相关文章

随机推荐

热门专题