Java爬虫(二)

　　上一篇简单的实现了获取url返回的内容，在这一篇就要第返回的内容进行提取，并将结果保存到html中。而且这个爬虫是基于python爬虫的java语言实现，其逻辑大致相同。

一、需求:

　　抓取主页面：百度百科Python词条 https://baike.baidu.com/item/Python/407313

分析上面的源码格式，便于提取：

关键词分析:位于class为lemmaWgt-lemmaTitle-title的dd元素的第一个h1标签内

简介分析(位于class为lemma-summary的div的text内容)

其他相关联的标签的分析(是a标签，且href以/item/开头)

二、抓取过程流程图:

三、代码实现:

1.SpiderManager.java

　　构造函数中创建Url管理器，html加载器，html解析器，html输出器

　　craw()方法中是爬虫的主要业务逻辑。

package cn.qlq.craw.JsoupBaike;

import java.io.IOException;

import java.util.List;

import java.util.Map;

/**

 * 爬虫的入口

 * @author liqiang

 *

 */

public class SpiderManager {

    private UrlManager urlManager;

    private HtmlLoader htmlLoader;

    private HtmlOutputer htmlOutputer;

    private HtmlParser htmlParser;

    public SpiderManager() {

        super();

        this.urlManager =new  UrlManager();

        this.htmlLoader =new  HtmlLoader();

        this.htmlOutputer =new HtmlOutputer();

        this.htmlParser =new  HtmlParser();

    }

    /**

     * 爬虫的主要逻辑

     * @param url    需要爬的网站地址

     */

    public void craw(String url){

        if(url == null || "".equals(url)){

            return;

        }

        int count = 0;//记录爬取了几个页面

        urlManager.addNewUrl(url);

        while (urlManager.hasNewUrl()){

            try {

                String newUrl = urlManager.getNewUrl();//获取需要爬取的网站url

                String htmlContent = htmlLoader.loadUrl(newUrl);//爬取网站内容

                Map<String,Object> datas = htmlParser.parseHtml(newUrl,htmlContent);//提取到爬到的网页中需要的信息

                urlManager.addNewUrls((List<String>) datas.get("urls"));//将提取到的url信息保存到urlManager

                htmlOutputer.collectData(datas);//将提取到的数据收集起来

                if(count == 10){

                    break;

                }

                count++;

            } catch (Exception e) {

                System.out.println("发生异常"+e.getMessage());

            }

        }

        try {

            htmlOutputer.outputDatas();

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

    }

    public UrlManager getUrlManager() {

        return urlManager;

    }

    public void setUrlManager(UrlManager urlManager) {

        this.urlManager = urlManager;

    }

    public HtmlLoader getHtmlLoader() {

        return htmlLoader;

    }

    public void setHtmlLoader(HtmlLoader htmlLoader) {

        this.htmlLoader = htmlLoader;

    }

    public HtmlOutputer getHtmlOutputer() {

        return htmlOutputer;

    }

    public void setHtmlOutputer(HtmlOutputer htmlOutputer) {

        this.htmlOutputer = htmlOutputer;

    }

    public HtmlParser getHtmlParser() {

        return htmlParser;

    }

    public void setHtmlParser(HtmlParser htmlParser) {

        this.htmlParser = htmlParser;

    }

}

2.UrlManager.java

　　维护两个list，一个用于存放未被爬取的url地址

　　　　　　　　一个用于存储已经爬取的url地址，并且两者不能有重复元素

package cn.qlq.craw.JsoupBaike;

import java.util.ArrayList;

import java.util.LinkedList;

import java.util.List;

/**

 * url管理器

 * @author liqiang

 *

 */

@SuppressWarnings("all")

public class UrlManager {

    /**

     * 存放未被访问的url的list

     */

    private List<String> new_urls;

    /**

     * 存放已经访问过的url的list

     */

    private List<String> old_urls;

    public UrlManager() {

        this.new_urls = new LinkedList<String>();

        this.old_urls = new LinkedList<String>();

    }

    /**

     * 添加一个url到list中

     * @param url

     */

    public void addNewUrl(String url) {

        if(url == null || "".equals(url)){

            return;

        }

        if(!new_urls.contains(url) && !old_urls.contains(url) ){

            new_urls.add(url);

        }

    }

    /**

     * 判断是否有新的url

     * @return

     */

    public boolean hasNewUrl() {

        return new_urls.size()>0;

    }

    /**

     * 弹出一个新的url

     * @return

     */

    public String getNewUrl() {

        if(new_urls.size() == 0){

            return null;

        }

        String newUrl = new_urls.get(0);//从未访问的集合中获取一个数据

        new_urls.remove(0);//移除第一个元素

        old_urls.add(newUrl);//将移除的数据添加到旧的已经访问过的集合中

        return newUrl;

    }

    /**

     * 批量添加url

     * @param urls    需要添加的url集合

     */

    public void addNewUrls(List<String> urls) {

        if(urls == null || urls.size()==0){

            return;

        }

        for(String url:urls){

            this.addNewUrl(url);

        }

    }

    public List<String> getNew_urls() {

        return new_urls;

    }

    public void setNew_urls(List<String> new_urls) {

        this.new_urls = new_urls;

    }

    public List<String> getOld_urls() {

        return old_urls;

    }

    public void setOld_urls(List<String> old_urls) {

        this.old_urls = old_urls;

    }

}

3.HtmlLoader.java

　　主要就是利用JSoup去读取url的内容

package cn.qlq.craw.JsoupBaike;

import java.io.IOException;

import org.jsoup.Jsoup;

/**

 * 读取url的内容

 * @author liqiang

 *

 */

public class HtmlLoader {

    public String loadUrl(String newUrl) {

        try {

            return Jsoup.connect(newUrl).post().toString();

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

        return "";

    }

}

4.HtmlParser.java

　　主要就是提取页面的主要内容(a标签，标题和简介)

package cn.qlq.craw.JsoupBaike;

import java.util.ArrayList;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

/**

 * 解析器

 * @author liqiang

 *

 */

public class HtmlParser {

    /**

     * 提取网站信息

     *

     * @param newUrl

     * @param htmlContent

     * @return map中应该包含该网页上提取到的url地址(set集合)和关键字

     */

    public Map<String, Object> parseHtml(String newUrl, String htmlContent) {

        // 0.将返回的htmlContent转换成DOM树

        // Document document = Jsoup.parse(htmlContent);

        // 1.获取到所有的a标签，且a标签的href属性包含/item

        List<String> urls = this.getUrls(newUrl, htmlContent);

        // 2.获取指定的标题和介绍

        Map<String, Object> titleAndSummary = this.getTitleAndSummary(newUrl, htmlContent);

        // 创建一个map,将提取到的urls和标题和简介装到map中返回去

        Map<String, Object> result = new HashMap<String, Object>();

        result.put("urls", urls);

        result.put("titleAndSummary", titleAndSummary);

        return result;

    }

    /**

     * 获取标题和简介

     *

     * @param newUrl

     *            传下来的访问的url

     * @param htmlContent

     *            传下来的获取到的html内容

     * @return

     */

    private Map<String, Object> getTitleAndSummary(String newUrl, String htmlContent) {

        Document document = Jsoup.parse(htmlContent);// 转换成DOM文档

        // 1.获取标题

        // first查找下面的第一个h1元素,get(index)可以获取指定位置的标签

        Element title_ele = document.select("dd.lemmaWgt-lemmaTitle-title").select("h1").first();

        String title_text = title_ele.text();

        // 2.获取简介

        Element summary_ele = document.select("div.lemma-summary").first();

        String summary_text = summary_ele.text();

        //将3.数据加入map返回

        Map<String, Object> titleAndSummary = new HashMap<String, Object>();

        titleAndSummary.put("title", title_text);

        titleAndSummary.put("summary", summary_text);

        titleAndSummary.put("url", newUrl);

        return titleAndSummary;

    }

    /**

     * 获取到所有的a标签，且a标签的href属性包含/item

     *

     * @param newUrl

     * @param htmlContent

     * @return

     */

    private List<String> getUrls(String newUrl, String htmlContent) {

        Document document = Jsoup.parse(htmlContent);// 转换成DOM文档

        Elements elements = document.select("a[href^='/item']");// 查找以/item开头的元素的标签

        List<String> urls = new ArrayList<String>();

        for (Element ele : elements) {

            String url = newUrl.substring(0, newUrl.indexOf("/item")) + ele.attr("href");

            urls.add(url);

        }

        return urls;

    }

}

5.HtmlOutputer.java

　　主要作用有两个:一个是保存每次提取的信息

　　　　　　　　　一个是最后爬虫完毕将提取的信息输出到html中。　

package cn.qlq.craw.JsoupBaike;

import java.io.BufferedOutputStream;

import java.io.File;

import java.io.FileNotFoundException;

import java.io.FileOutputStream;

import java.io.FileWriter;

import java.io.IOException;

import java.util.ArrayList;

import java.util.List;

import java.util.Map;

/**

 * 输出器

 *

 * @author liqiang

 *

 */

public class HtmlOutputer {

    private List<Map<String, Object>> collected_datas;

    public HtmlOutputer() {

        this.collected_datas = new ArrayList<Map<String, Object>>();

    }

    /**

     * 收集数据

     *

     * @param datas

     */

    public void collectData(Map<String, Object> datas) {

        collected_datas.add(datas);// 将数据 添加到集合中

    }

    /**

     * 最后处理所有的数据，写出到html或者保存数据库

     *

     * @throws IOException

     */

    public void outputDatas() throws IOException {

        if (collected_datas != null && collected_datas.size() > 0) {

            File file = new File("C:\\Users\\liqiang\\Desktop\\实习\\python\\JavaCraw\\out.html");

            // 如果文件不存在就创建文件

            if (!file.exists()) {

                file.createNewFile();

            }

            // 构造FileWriter用于向文件中输出信息(此构造方法可以接收file参数，也可以接收fileName参数)

            FileWriter fileWriter = new FileWriter(file);

            // 开始写入数据

            fileWriter.write("<html>");

            fileWriter.write("<head>");

            fileWriter.write("<title>爬取结果</title>");

            fileWriter

                    .write("<style>table{width:100%;table-layout: fixed;word-break: break-all; word-wrap: break-word;}"

                            + "table td{border:1px solid black;width:300px}</style>");

            fileWriter.write("</head>");

            fileWriter.write("<body>");

            fileWriter.write("<table cellpadding='0' cellspacing='0'>");

            for (Map<String, Object> datas : collected_datas) {

                @SuppressWarnings("unchecked")

                Map<String, Object> data = (Map<String, Object>) datas.get("titleAndSummary");

                String url = (String) data.get("url");

                String title = (String) data.get("title");

                String summary = (String) data.get("summary");

                fileWriter.write("<tr>");

                fileWriter.write("<td><a href=" + url + ">" + url + "</a></td>");

                fileWriter.write("<td>" + title + "</td>");

                fileWriter.write("<td>" + summary + "</td>");

                fileWriter.write("</tr>");

            }

            fileWriter.write("</table>");

            fileWriter.write("</body>");

            fileWriter.write("</html>");

            // 关闭文件流

            fileWriter.close();

        }

    }

}

至此代码编写基本完成，下面进行测试:

package cn.qlq.craw.JsoupBaike;

import java.io.FileWriter;

public class MainClass {

    public static void main(String[] args) {

        String url = "https://baike.baidu.com/item/Python/407313";

        SpiderManager sm = new SpiderManager();

        sm.craw(url);

    }

}

结果:(会生成out.html)

Jsoup中文API网址:http://www.open-open.com/jsoup/

python同样功能的爬虫实现:http://www.cnblogs.com/qlqwjy/p/8877705.html

Java爬虫(二)的更多相关文章

Java爬虫系列二：使用HttpClient抓取页面HTML
爬虫要想爬取需要的信息,首先第一步就要抓取到页面html内容,然后对html进行分析,获取想要的内容.上一篇随笔<Java爬虫系列一:写在开始前>中提到了HttpClient可以抓取页面内 ...
webmagic的设计机制及原理-如何开发一个Java爬虫
之前就有网友在博客里留言,觉得webmagic的实现比较有意思,想要借此研究一下爬虫.最近终于集中精力,花了三天时间,终于写完了这篇文章.之前垂直爬虫写了一年多,webmagic框架写了一个多月,这方 ...
爬虫6：多页面增量Java爬虫-sina主页
之前写过很多单页面python爬虫,感觉python还是很好用的,这里用java总结一个多页面的爬虫,迭代爬取种子页面的所有链接的页面,全部保存在tmp路径下. 1 序言实现这个爬虫需要两个数据结构 ...
JAVA爬虫 WebCollector
JAVA爬虫 WebCollector 爬虫简介: WebCollector是一个无须配置.便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫. 爬虫 ...
爬虫入门手写一个Java爬虫
本文内容涞源于罗刚老师的书籍 << 自己动手写网络爬虫一书 >> ; 本文将介绍 1: 网络爬虫的是做什么的? 2: 手动写一个简单的网络爬虫; 1: 网络爬虫是做 ...
Java 爬虫学习
Java爬虫领域最强大的框架是JSoup:可直接解析具体的URL地址(即解析对应的HTML),提供了一套强大的API,包括可以通过DOM.CSS选择器,即类似jQuery方式来取出和操作数据.主要功能 ...
java 爬虫
由于项目需求,综合了几种考虑方案,准备使用java 爬虫进行数据的获取,不用自己去费劲的想逻辑的实现使用java爬虫之前,我们必须要掌握的知识: 1. 对前端HTML的元素有一定的认识 2. 使用h ...
webmagic的设计机制及原理-如何开发一个Java爬虫转
此文章是webmagic 0.1.0版的设计手册,后续版本的入门及用户手册请看这里:https://github.com/code4craft/webmagic/blob/master/user-ma ...
java爬虫入门
本文内容涞源于罗刚老师的书籍 << 自己动手写网络爬虫一书 >> ; 本文将介绍 1: 网络爬虫的是做什么的? 2: 手动写一个简单的网络爬虫; 1: 网络爬虫是做 ...

随机推荐

开源人脸识别face_recognition
环境:python36 1.安装dlib.face_recognition windows版下载dlib,cp后面是py版本下载地址:https://pypi.org/simple/dlib/ 提 ...
asp.net下使用Cookie保存登录信息
在网页中登录窗口是最常见的,如果把登录信息存在客户机Cookie中,下次用户登录时,网页先在客户机上查找登录信息,如果成功即可跳过登录步骤直接到主窗口,如登录界面如下:
hdu 6375 百度之星度度熊学队列
题目链接 Problem Description 度度熊正在学习双端队列,他对其翻转和合并产生了很大的兴趣. 初始时有 N 个空的双端队列(编号为 1 到 N ),你要支持度度熊的 Q 次操作. ①1 ...
bzoj4484[JSOI2015]最小表示
题意给出一张DAG,要求删除尽量多的边使得连通性不变.(即:若删边前u到v有路径,则删边后仍有路径).点数30000,边数100000. 分析如果从u到v有(u,v)这条边,且从u到v只有这一条路 ...
Codeforces 748D Santa Claus and a Palindrome
雅礼集训期间我好像考完试就开始划水了啊给出k个长度相同的字符串,每个串有一个权值,选出一些串连成一个回文串.使得选中的串的总权值最大. 如果选一个串,必须同时选一个对称的串.还有一个特殊情况是可以在 ...
P1039 侦探推理
题目描述明明同学最近迷上了侦探漫画<柯南>并沉醉于推理游戏之中,于是他召集了一群同学玩推理游戏.游戏的内容是这样的,明明的同学们先商量好由其中的一个人充当罪犯(在明明不知情的情况下),明 ...
day29：关闭服务|
1. 在centos6系统里,我们可以使用ntsysv关闭不需要开机启动的服务,当然也可以使用chkconfig工具来实现. 写一个shell脚本,用chkconfig工具把不常用的服务关闭.脚本需要 ...
elasticsearch 第一篇(入门篇)
介绍 elasticsearch是一个高效的.可扩展的全文搜索引擎基本概念 Near Realtime(NRT): es是一个接近实时查询平台,意味从存储一条数据到可以索引到数据时差很小,通常在1s ...
【bzoj3230】相似子串
Portal -->bzoj3230 Description 给你一个长度为\(n\)的字符串,把它的所有本质不同的子串按字典序大小排序,有\(m\)个询问,对于每一个询问\(x,y\)你需要回 ...
mysql三-2:数据类型
一介绍存储引擎决定了表的类型,而表内存放的数据也要有不同的类型,每种数据类型都有自己的宽度,但宽度是可选的详细参考: http://www.runoob.com/mysql/mysql-data ...