HtmlUnit 开发网络爬虫

网络爬虫第一个要面临的问题，就是如何抓取网页，抓取其实很容易，没你想的那么复杂，一个开源HtmlUnit包，几行代码就OK啦！

通常在一个页面中会包含别的Url，在别的Url当中又会包含更多的Url。如果我们要对与该站点相关的Url全部都抓取过来。就相当于我们要对跟这个站有关的Url进行搜索。

常用的搜索算法有bfs和dfs，考虑到网页上的Url的重要程度还是以广度来分布的，所以这里采用bfs来搜索url。

到这里又会产生一些问题：

1，搜索过的url，并不需要重新访问
2，如何拼凑新的url
3，不要访问站外url，处理无法访问的url等.....

总之我们尽可能的根据实际的情况得到自己想要的url~所以我们尽可能编写合法的剪枝算法。

下面添上自己胡乱写的算法的框架，写的不好哈哈。

import java.io.IOException;

import java.net.MalformedURLException;

import java.util.HashMap;

import java.util.HashSet;

import java.util.LinkedList;

import java.util.Map;

import java.util.Queue;

import java.util.Set;

import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;

import com.gargoylesoftware.htmlunit.WebClient;

import com.gargoylesoftware.htmlunit.html.HtmlAnchor;

import com.gargoylesoftware.htmlunit.html.HtmlPage;

//引用HtmlUnit

public class MyWalker {

    static int num = 0;//暂时用num进行限制

    final static WebClient webClient = new WebClient();

    static Queue<String> Q = new LinkedList<String>();//存放被抓取的Url

    static Set<String> linkUrl = new HashSet<String>();

    static Map<String,Boolean> flagMap = new HashMap<String,Boolean>();//标记Url是否访问过

    static{

        webClient.getOptions().setCssEnabled(false);

        webClient.getOptions().setJavaScriptEnabled(false);

    }

    private static String baseUrl = "http://xjasc.gov.cn";

    //拼凑出可再次访问的url, 这里的拼凑是不完整的

    private static String createUrl(String current, String u){
　　　　  return current + "/" + u;

    }

    //判断该链接是否合法

    private static boolean isLegal(String url){

        if(num > 100) return false;

        return true;

    }

    //页面是否坏掉

    private static boolean isBadUrl(String url){

        return false;

    }

    private static  void bfs(){

        Q.offer(baseUrl);

        linkUrl.add(baseUrl);
　　　　 while(!Q.isEmpty()){

            //得到当前的Url

            try {

                String tmpUrl = Q.poll();

                if(flagMap.get(tmpUrl)==null){//该结点没有访问过

                    flagMap.put(tmpUrl, true);//标记为已经访问

                    HtmlPage page = webClient.getPage(tmpUrl);

                    java.util.List<HtmlAnchor> achList=page.getAnchors();

                    for(HtmlAnchor ach:achList){

                        String newUrl = createUrl(tmpUrl, ach.getHrefAttribute());

                        if(isLegal(newUrl)){

                            System.out.println(newUrl);

                            num++;

                            linkUrl.add(newUrl);

                            Q.offer(newUrl);

                        }

                    }

                }

            } catch (FailingHttpStatusCodeException e) {

                System.out.println(e.getStatusCode());

            } catch (MalformedURLException e) {

            } catch (IOException e) {

            }    

        }

    }

    public static void main(String[] args) {

        bfs();

    }

}

HtmlUnit 开发网络爬虫的更多相关文章

零基础自学用Python 3开发网络爬虫
原文出处: Jecvay Notes (@Jecvay) 由于本学期好多神都选了Cisco网络课, 而我这等弱渣没选, 去蹭了一节发现讲的内容虽然我不懂但是还是无爱. 我想既然都本科就出来工作还是按照 ...
Python开发网络爬虫抓取某同城房价信息
前言: 苦逼的我从某某城市换到另一个稍微大点的某某城市,面临的第一个问题就是买房,奋斗10多年,又回到起点,废话就不多说了,看看如何设计程序把某同城上的房价数据抓取过来. 方案:方案思路很简单,先把网 ...
Python 3网络爬虫开发实战》中文PDF+源代码+书籍软件包
Python 3网络爬虫开发实战>中文PDF+源代码+书籍软件包下载:正在上传请稍后... 本书书籍软件包为本人原创,在这个时间就是金钱的时代,有些软件下起来是很麻烦的,真的可以为你们节省很多 ...
Python 3网络爬虫开发实战中文书籍软件包(原创)
Python 3网络爬虫开发实战中文书籍软件包(原创) 本书书籍软件包为本人原创,想学爬虫的朋友你们的福利来了.软件包包含了该书籍所需的所有软件. 因为软件导致这个文件比较大,所以百度网盘没有加速的 ...
Python 3网络爬虫开发实战中文PDF+源代码+书籍软件包(免费赠送)+崔庆才
Python 3网络爬虫开发实战中文PDF+源代码+书籍软件包+崔庆才下载: 链接:https://pan.baidu.com/s/1H-VrvrT7wE9-CW2Dy2p0qA 提取码:35go ...
《Python 3网络爬虫开发实战中文》超清PDF+源代码+书籍软件包
<Python 3网络爬虫开发实战中文>PDF+源代码+书籍软件包下载: 链接:https://pan.baidu.com/s/18yqCr7i9x_vTazuMPzL23Q 提取码:i ...
Python 3网络爬虫开发实战书籍
Python 3网络爬虫开发实战书籍,教你学会如何用Python 3开发爬虫本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib.reques ...
Python3网络爬虫开发实战PDF高清完整版免费下载|百度云盘
百度云盘:Python3网络爬虫开发实战高清完整版免费下载提取码:d03u 内容简介本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib.req ...
Python网络爬虫与信息提取笔记
直接复制粘贴笔记发现有问题文档下载地址//download.csdn.net/download/hide_on_rush/12266493 掌握定向网络数据爬取和网页解析的基本能力常用的 Pytho ...

随机推荐

虚拟化技术KVM
1>虚拟化技术: 计算机虚拟化技术是多种技术的综合实现,它包括硬件平台,操作系统,存储以及网络等,简单地说,虚拟化技术就是在单台主机上可以虚拟多个虚假主机,并可以在这些虚拟主机上运行不同的操作系 ...
[Delphi] Webbroker ISAPI 示例说明
新建Webbroker项目: 选择类型: 开始可以使用:Indy VCL Application 方便调试,完成后,再新建一个DLL 项目,引用业务单元. 示例代码如下: unit uDataMo ...
Android 使用pk10系统架设RecyclerView实现轮播图
一.需求 ViewPager有个天生的缺陷是View无法重用,此外pk10系统架设详情咨询[企娥166848365]ViewPager的滑动过程会频繁requestLayout,尽管可以通过addVi ...
jquery datepicker 中文
<script type="text/javascript"> jQuery(function(){ $.datepicker.regional['zh-CN'] = ...
vmware开发包之vSphere Management SDK
vSphere Management SDK关于vmware管理等相关功能的.net和java的代码示例. 在其5.5的解压包中 eam:esx agent management表示esx虚机生产环境 ...
border使用小技巧
border-style 分类 dashed虚线类型 dotted 点线类型 double 双线类型双线型量根实线的宽度和中间空白区域的间距有一定规律: 可以利用这个规律画出一些特殊的图案代码如下 ...
docker-compose 配置
本文介绍compose配置文件参数的使用,熟练编写compose文件 [root@docker lnmp]# cat lnmp.yaml version: '3' services: nginx: b ...
BAT 命令 .bat
echo.@.call.pause.rem(小技巧:用::代替rem)是批处理文件最常用的几个命令 echo 表示显示此命令后的字符 echo off 表示在此语句后所有运行的命令都不显示命令行本 ...
三、linux基础命令
1.已知/tmp 目录下已经存放了test.txt文件,如何执行命令才能把/mnt/test.txt拷贝到/tmp 下覆盖掉/tmp/test.txt,而让linux系统不提示是否覆盖答:之所以会出 ...
[Swift]堆栈Stack的两种版本：(1)用类包装Stack (2)用泛型包装Stack
堆栈是一个在计算机科学中经常使用的抽象数据类型.堆栈中的物体具有一个特性: 最后一个放入堆栈中的物体总是被最先拿出来, 这个特性通常称为后进先出(LIFO)队列. 堆栈中定义了一些操作. 两个最重要的 ...

HtmlUnit 开发网络爬虫

HtmlUnit 开发网络爬虫的更多相关文章

随机推荐

热门专题