用Java实现网络爬虫

myCrawler.java

package WebCrawler;

import java.io.File;

import java.util.ArrayList;

import java.util.LinkedList;

import java.util.Queue;

public class MyCrawler {

    private static final String SAVEPATH = "C:"+File.separator+"downloadURL";

    public void crawl(ArrayList<URL> urls, int depth) {

        //初始化队列

        Queue<URL> q = new LinkedList<URL>();

        ArrayList<URL> visited = new ArrayList<URL>();

        q.addAll(urls);

        while (!q.isEmpty()) {

            URL head = q.poll();    //出列

            if(head.getDepth() > depth){

                break;

            }

            visited.add(head);

            String page = HtmlParserTool.getPage(head.toString());

            String charset = HtmlParserTool.getCharset(page);

            String urlFullPath = SAVEPATH+File.separator+head.toString().replaceAll("[?:<>*|////]","_")+".html";

            HtmlParserTool.writeToDisk(urlFullPath, page, charset);    //保存到磁盘

            ArrayList<String> toVisit = HtmlParserTool.extractLinks(page);

            for (String s : toVisit) {

                if (!visited.contains(s)) {

                    //visited.add(s);

                    q.add(new URL(s, head.getDepth()+1));

                }

            }

        }

    }

    public static void main(String[] args) throws Exception {

        ArrayList<URL> urls = new ArrayList<URL>();

        urls.add(new URL("http://www.baidu.com"));

        new MyCrawler().crawl(urls,1);

    }

}

HtmlParserTool.java

package WebCrawler;

import java.io.BufferedReader;

import java.io.File;

import java.io.FileOutputStream;

import java.io.InputStreamReader;

import java.io.OutputStream;

import java.util.ArrayList;

import org.apache.http.client.methods.CloseableHttpResponse;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;

import org.htmlparser.Parser;

import org.htmlparser.Tag;

import org.htmlparser.tags.LinkTag;

import org.htmlparser.visitors.NodeVisitor;

public class HtmlParserTool {

    //判断字符串是否是一个网址

    private static boolean isValidUrl(String url) {

        if (url.startsWith("http") | url.startsWith("https")) {

            return true;

        } else {

            return false;

        }

    }

    //获取网页包含的超链接

    public static ArrayList<String> extractLinks(String content){

        ArrayList<String> links = new ArrayList<String>();

        Parser parser = null;

        NodeVisitor visitor = null;

        try {

            parser = new Parser(content);

            visitor = new NodeVisitor() {

                @Override

                public void visitTag(Tag tag) {

                    if(tag instanceof LinkTag) {

                        LinkTag link = (LinkTag)tag;

                        String linkString = link.getLink();

                        if(isValidUrl(linkString) && !links.contains(linkString)) {

                            links.add(linkString);

                        }

                    }

                }

            };

            parser.visitAllNodesWith(visitor);

        } catch (Exception e) {

            e.printStackTrace();

        }

        return links;

    }

    //获取字符集

    public static String getCharset(String content) {

        int startIdx = content.indexOf("charset");

        int endIdx = content.indexOf("\"", startIdx+9);

        String charset = content.substring(startIdx+9, endIdx);

        return charset;

    }

    //获取网页内容

    public static String getPage(String url) {

        CloseableHttpClient client = HttpClients.createDefault();

        HttpGet request = new HttpGet(url);

        String content="";

        try {

            CloseableHttpResponse response = client.execute(request);

            //System.out.println("Response Code: " + response.getStatusLine().getStatusCode());

            BufferedReader rd = new BufferedReader(new InputStreamReader(response.getEntity().getContent()));

            String line = "";

            while ((line = rd.readLine()) != null) {

                content = content + line + "\n";

            }

            response.close();

            client.close();

            String charset = getCharset(content);

            if(charset != null) {

                content = new String(content.getBytes(),charset);

            }

        } catch (Exception e) {

            e.printStackTrace();

        }

        return content;

    }

    //将网页内容写至磁盘

    public static void writeToDisk(String path, String content, String charset){

        try {

            File file = new File(path);

            OutputStream o = new FileOutputStream(file);

            o.write(content.getBytes(charset));

            o.close();

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

}

URL.java

package WebCrawler;

public class URL {

    private String url;

    private int depth;

    public URL(String url) {

        this.url = url;

        this.depth = 1;

    }

    public URL(String url, int depth) {

        this.url = url;

        this.depth = depth;

    }

    public String toString() {

        return this.url;

    }

    public String getUrl() {

        return url;

    }

    public void setUrl(String url) {

        this.url = url;

    }

    public int getDepth() {

        return depth;

    }

    public void setDepth(int depth) {

        this.depth = depth;

    }

}

用Java实现网络爬虫的更多相关文章

Java之网络爬虫WebCollector2.1.2+selenium2.44+phantomjs2.1.1
Java之网络爬虫WebCollector2.1.2+selenium2.44+phantomjs2.1.1 一.简介版本匹配: WebCollector2.12 + selenium2.44.0 ...
java之网络爬虫介绍
文章大纲一.网络爬虫基本介绍二.java常见爬虫框架介绍三.WebCollector实战四.项目源码下载五.参考文章一.网络爬虫基本介绍 1. 什么是网络爬虫网络爬虫(又被称为网页蜘蛛, ...
使用Java实现网络爬虫
网络爬虫网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 另外一些不常使用的名字还有蚂蚁.自动索引.模 ...
基于java的网络爬虫框架(实现京东数据的爬取，并将插入数据库)
原文地址http://blog.csdn.net/qy20115549/article/details/52203722 本文为原创博客,仅供技术学习使用.未经允许,禁止将其复制下来上传到百度文库等平 ...
Jsoup-基于Java实现网络爬虫-爬取笔趣阁小说
注意!仅供学习交流使用,请勿用在歪门邪道的地方!技术只是工具!关键在于用途! 今天接触了一款有意思的框架,作用是网络爬虫,他可以像操作JS一样对网页内容进行提取初体验Jsoup <!-- Ma ...
Java版网络爬虫基础（转）
网络爬虫不仅仅可以爬取网站的网页,图片,甚至可以实现抢票功能,网上抢购,机票查询等.这几天看了点基础,记录下来. 网页的关系可以看做是一张很大的图,图的遍历可以分为深度优先和广度优先.网络爬虫采取的广 ...
Java版网络爬虫基础
网络爬虫不仅仅可以爬取网站的网页,图片,甚至可以实现抢票功能,网上抢购,机票查询等.这几天看了点基础,记录下来. 网页的关系可以看做是一张很大的图,图的遍历可以分为深度优先和广度优先.网络爬虫采取的广 ...
java实现网络爬虫
import java.io.IOException; import java.util.HashSet; import java.util.Set; import java.util.r ...
JAVA平台上的网络爬虫脚本语言 CrawlScript
JAVA平台上的网络爬虫脚本语言 CrawlScript 网络爬虫即自动获取网页信息的一种程序,有很多JAVA.C++的网络爬虫类库,但是在这些类库的基础上开发十分繁琐,需要大量的代码才可以完成一个 ...

随机推荐

Knockout.js随手记(4)
动态绑定下拉列表在<select> data-bind的options选项如果绑定到ko.observableArray(),就可以动态新增选项效果,也就是可以利用其完成常见的级联效果的 ...
HTML5和CSS3新特性一览
HTML5 1.HTML5 新元素 HTML5提供了新的元素来创建更好的页面结构: 标签描述 <article> 定义页面独立的内容区域. <aside> 定义页面的侧边栏内 ...
SQL SERVER 中的提示
提示是指定的强制选项或策略,由 SQL Server 查询处理器针对 SELECT.INSERT.UPDATE 或 DELETE 语句执行. 提示将覆盖查询优化器可能为查询选择的任何执行计划. 注意: ...
Winform实现用多线程、百度地图API解析某公司的物理地址
前言作为一个很挫的C#新手总喜欢自己写点儿不着边际的东西,本人是个新手加菜鸟,写B/S的,工作中,任务完成了,空闲下来,总想继续学点儿什么,由此触发了本篇文章了.个人一直认为,.NET中,C/S所要 ...
JupyterNotebook如何添加table of content
不要总是等待,而是去创造方法一 ipython notebook升级成了jupyter notebook,在4.x之后的版本,jupyter提供了jupyter-nbextension命令来安装和启 ...
iOS存储的三种方式
iOS中存储的3中方式: 1.NSUserDefaults 注意存储基本对象类型是没有问题的,但是要存储自定义对象,则要将对象内所有的属性(或是需要存储的属性)序列化,实现NSCoding协议序列化. ...
手动编译安装docker环境，以及偶尔出现的bug
总结安装过程如下: 前提:安装git,go,make, docker(docker中编译docker) git clone https://git@github.com/docker/docker c ...
CodeForces 518B. Tanya and Postcard
B. Tanya and Postcard time limit per test 2 seconds memory limit per test 256 megabytes input standa ...
【Oracle】oracle之listagg分析函数
oracle分析函数——listagg篇 (1)使用listagg将多行数据合并到一行例表: select deptno, ename from emp order by deptno, ename ...
js学习
2014-02-21 var p=function(){}(); //表示定义一个变量P,变量后面的函数为返回值 var p = function(){return 'abc';}(); alert( ...

用Java实现网络爬虫

用Java实现网络爬虫的更多相关文章

随机推荐

热门专题