java实现网络爬虫

import java.io.IOException;  

import java.util.HashSet;  

import java.util.Set;  

import java.util.regex.Matcher;  

import java.util.regex.Pattern;  

import org.jsoup.Jsoup;  

import org.jsoup.nodes.Document;  

import org.jsoup.nodes.Element;  

import org.jsoup.select.Elements;  

 

public class TestClass {  

    private static Set<String> urlSet = new HashSet<String>();  

    private static Pattern p = Pattern  

            .compile(  

                    "^(((http|https)://" +  

                    "(www.|([1-9]|[1-9]\\d|1\\d{2}|2[0-1]\\d|25[0-5])" +  

                    "(\\.(\\d|[1-9]\\d|1\\d{2}|2[0-4]\\d|25[0-5])){3}:[0-9]+/)?)" +  

                    "{1}.+){1}quot;,  

                    Pattern.CASE_INSENSITIVE);  

 

    public static void main(String[] args) {  

        String baseUrl = "http://www.sina.com";  

        spiderInternet(baseUrl, "");  

    }  

 

    private static void spiderInternet(String baseUrl, String exUrl) {  

        if (baseUrl.endsWith("/") && exUrl.startsWith("/")) {  

            baseUrl = baseUrl.substring(0, baseUrl.length() - 1);  

        }  

        String new_url = baseUrl + exUrl;  

        if (urlSet.contains(new_url)) {  

            return;  

        }  

        System.out.println(new_url);  

        try {  

            Document doc = Jsoup.connect(new_url).get();  

            urlSet.add(new_url);  

            Elements links = doc.select("a[href]");  

            for (Element link : links) {  

                String linkHref = link.attr("href");  

                if (linkHref.equals("#")) {  

                    return;  

                }  

                Matcher matcher = p.matcher(linkHref);  

                if (matcher.matches()) {  

                    spiderInternet(linkHref, "");  

                } else {  

                    spiderInternet(baseUrl, linkHref);  

                }  

            }  

        } catch (IOException e) {  

            e.printStackTrace();  

        }  

    }  

}

java实现网络爬虫的更多相关文章

Java之网络爬虫WebCollector2.1.2+selenium2.44+phantomjs2.1.1
Java之网络爬虫WebCollector2.1.2+selenium2.44+phantomjs2.1.1 一.简介版本匹配: WebCollector2.12 + selenium2.44.0 ...
java之网络爬虫介绍
文章大纲一.网络爬虫基本介绍二.java常见爬虫框架介绍三.WebCollector实战四.项目源码下载五.参考文章一.网络爬虫基本介绍 1. 什么是网络爬虫网络爬虫(又被称为网页蜘蛛, ...
使用Java实现网络爬虫
网络爬虫网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 另外一些不常使用的名字还有蚂蚁.自动索引.模 ...
基于java的网络爬虫框架(实现京东数据的爬取，并将插入数据库)
原文地址http://blog.csdn.net/qy20115549/article/details/52203722 本文为原创博客,仅供技术学习使用.未经允许,禁止将其复制下来上传到百度文库等平 ...
Jsoup-基于Java实现网络爬虫-爬取笔趣阁小说
注意!仅供学习交流使用,请勿用在歪门邪道的地方!技术只是工具!关键在于用途! 今天接触了一款有意思的框架,作用是网络爬虫,他可以像操作JS一样对网页内容进行提取初体验Jsoup <!-- Ma ...
Java版网络爬虫基础（转）
网络爬虫不仅仅可以爬取网站的网页,图片,甚至可以实现抢票功能,网上抢购,机票查询等.这几天看了点基础,记录下来. 网页的关系可以看做是一张很大的图,图的遍历可以分为深度优先和广度优先.网络爬虫采取的广 ...
Java版网络爬虫基础
网络爬虫不仅仅可以爬取网站的网页,图片,甚至可以实现抢票功能,网上抢购,机票查询等.这几天看了点基础,记录下来. 网页的关系可以看做是一张很大的图,图的遍历可以分为深度优先和广度优先.网络爬虫采取的广 ...
用Java实现网络爬虫
myCrawler.java package WebCrawler; import java.io.File; import java.util.ArrayList; import java.util ...
JAVA平台上的网络爬虫脚本语言 CrawlScript
JAVA平台上的网络爬虫脚本语言 CrawlScript 网络爬虫即自动获取网页信息的一种程序,有很多JAVA.C++的网络爬虫类库,但是在这些类库的基础上开发十分繁琐,需要大量的代码才可以完成一个 ...

随机推荐

Apache shiro的简单介绍与使用(与spring整合使用）
apache shiro框架简介 Apache Shiro是一个强大而灵活的开源安全框架,它能够干净利落地处理身份认证,授权,企业会话管理和加密.现在,使用Apache Shiro的人越来越多,因为它 ...
Java历程-初学篇 Day09 冒泡排序
冒泡排序冒泡排序(Bubble Sort)是一种简单的排序算法.它重复地走访过要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来.走访数列的工作是重复地进行直到没有再需要交换,也就是 ...
用$.getJSON() 和$.post()获取第三方数据做页面 ——惠品折页面（1）
用$.getJSON() 和$.post()获取第三方数据做页面首页 index.html 页面需要jquery 和 template-web js文件可以直接在官网下载中间导航条的固 ...
Docker入门系列（一）：目标和安排
Docker入门系列(一) 这个系列的教程来源于docker的官方文档,此文档的目的在于一步一步学习docker的使用方法. 这一系列的教程有如下几篇文档: docker安装启动构建第一个docke ...
（10.16）java小作业！
相信大家刚刚学习java多多少少都会写一些java的基础编程来练练手感,我也不例外!今天想和大家分享一下我最近所接触到的比较有趣的java小编程! 已知a已被赋值,b已被赋值,请编写java程序实现a ...
初识SQL Server2017 图数据库（一）
背景: 图数据库对于表现和遍历复杂的实体之间关系是很有效果的.而这些在传统的关系型数据库中尤其是对于报表而言很难实现.如果把传统关系型数据库比做火车的话,那么到现在大数据时代,图数据库可比做高铁.它已 ...
php+openresty 部署安装
1. ecs 购买地域: 华北 2 可用区: 随机分配安全组 ID: sg-2533jog6k I/O 优化实例: I/O 优化实例实例规格: 1 核 1GB 网络类型: 经典网络带宽: 1M ...
Uva11582
最近各种破事忙死了终于开始做题了紫薯第10章第一题,come on 设g(i)=f(i) mod n,当二元组(g(i).g(i+1))出现重复时,整个序列就开始重复(这一话怎么也不懂,请大神解释 ...
Python学习常用的好网站
以下总结出自己在学习python期间常用的网址或者资源,其中包括很多人的博客,方便自己从这个入口查找资源. 1.https://www.liaoxuefeng.com/wiki/00143160895 ...
iOS开发中使用文字图标iconfont
在iOS的开发中,各种图标的使用是不可避免的,如果把全部图标做成图片放在项目中,那么随着项目的逐渐庞大起来,图片所占的地方就会越来越大,安装包也就随之变大了,如果图标需要根据不同的场景改变使用不同的颜 ...

java实现网络爬虫

java实现网络爬虫的更多相关文章

随机推荐

热门专题