Java爬虫——Gecco简单入门程序（根据下一页一直爬数据）

为了完成作业，所以学习了一下爬虫Gecco，这个爬虫集合了以往所有的爬虫的特点，但是官方教程中关于Gecco的教程介绍的过于简单，本篇博客是根据原博客的地址修改的，原博客中只有程序的截图，而没有给出一个完整的程序，本篇博客给出完整的代码首先：爬取数据的目标网站是：https://doutushe.com/portal/index/index/p/1（关于斗图社）

创建maven项目，导入依赖：

  <dependency>

    <groupId>com.geccocrawler</groupId>

    <artifactId>gecco</artifactId>

    <version>1.3.0</version>
</dependency>

爬取第一页的数据，其中包括每个页面每个详细话题的链接以及下一页的链接地址，

代码如下： DoutuSheIndex.java

package com.chry.GeccoCSDN;

import java.util.List;

import com.geccocrawler.gecco.GeccoEngine;

import com.geccocrawler.gecco.annotation.Gecco;

import com.geccocrawler.gecco.annotation.Href;

import com.geccocrawler.gecco.annotation.HtmlField;

import com.geccocrawler.gecco.annotation.Request;

import com.geccocrawler.gecco.request.HttpRequest;

import com.geccocrawler.gecco.spider.HtmlBean;

@Gecco(matchUrl="https://doutushe.com/portal/index/index/p/{page}", pipelines="doutusheIndex")

public class DoutuSheIndex implements HtmlBean{

	/**

	 *

	 */

	private static final long serialVersionUID = 1L;

	@Request

	private HttpRequest request;

	@Href(click=true)

	@HtmlField(cssPath="a.link-2")

	private List<String> nameList;   //得到的是地址

	public HttpRequest getRequest() {

		return request;

	}

	public void setRequest(HttpRequest request) {

		this.request = request;

	}

	@Href(value="href")

	@HtmlField(cssPath="a.link-2")

	private List<String>idList;     //得到的名称

	@HtmlField(cssPath="ul.pagination li")

	private List<IndexPageEntity> pageList;

	public List<IndexPageEntity> getPageList() {

		return pageList;

	}

	public void setPageList(List<IndexPageEntity> pageList) {

		this.pageList = pageList;

	}

	public List<String> getNameList() {

		return nameList;

	}

	public List<String> getIdList() {

		return idList;

	}

	public void setNameList(List<String> nameList) {

		this.nameList = nameList;

	}

	public void setIdList(List<String> idList) {

		this.idList = idList;

	}

}

注意：在创建的类中必须要有一个request私有成员，并且添加他的get和set方法，这样是为了后边可以在proess中获取数据。

现在详细的介绍一下页面中的每个不同的部分

每个里边的成员变量都有一个与之对应的css路径，这是与网页中的元素对应的，当对应的css是一类时，可以用一个List对象来存储该页面中所有相同css的元素

FinishDoutusheIndex.java

package com.chry.GeccoCSDN;

import org.apache.http.util.TextUtils;

import com.geccocrawler.gecco.annotation.PipelineName;

import com.geccocrawler.gecco.pipeline.Pipeline;

import com.geccocrawler.gecco.request.HttpRequest;

import com.geccocrawler.gecco.scheduler.SchedulerContext;

@PipelineName(value="doutusheIndex")

public class FinishDoutusheIndex implements Pipeline<DoutuSheIndex>{

    public void process(DoutuSheIndex doutusheIndex) {

        //首先遍历帖子的详情

                for(int i=0;i<doutusheIndex.getIdList().size();i++) {

                    if(!TextUtils.isEmpty(doutusheIndex.getNameList().get(i))) {

                        String url = doutusheIndex.getIdList().get(i);

                        HttpRequest currRequest = doutusheIndex.getRequest();

                        SchedulerContext.into(currRequest.subRequest(url));

                    }

                }

        //跳转到下一页

                for(int i=0;i<doutusheIndex.getPageList().size();i++) {

                    String pageName = doutusheIndex.getPageList().get(i).getPageName();

                    if(pageName!=null&&pageName.equals("下一页")) {

                        String url = doutusheIndex.getPageList().get(i).getPageUrl();

                        HttpRequest currRequest = doutusheIndex.getRequest();

                        SchedulerContext.into(currRequest.subRequest(url));

                    }

                }

    }

}

注意：这个java文件hi用来处理帕区到的第一个页面的超链接的

这相当于一个管道类

每个管道类都应该有一个与之相对应的value值，上边的value值正好与第一个java文件中的pipelines属性相对应，这就表示第一个java类中获取到的数据都会传到这个类中，在自定义管道类中都会重写一个process方法，用来处理数据，在上边的proess中，处理的过程就是获取每个论坛标题和下一页的超链接，并放到配置中心去，此时，会自动匹配网址，进入到下一个类中。

DoutusheEntity.java

package com.chry.GeccoCSDN;

import java.util.List;

import com.geccocrawler.gecco.annotation.Gecco;

import com.geccocrawler.gecco.annotation.HtmlField;

import com.geccocrawler.gecco.annotation.Image;

import com.geccocrawler.gecco.annotation.Request;

import com.geccocrawler.gecco.request.HttpRequest;

import com.geccocrawler.gecco.spider.HtmlBean;

@Gecco(matchUrl="https://doutushe.com/portal/article/index/id/{content}", pipelines="doutusheEntity")

public class DoutusheEntity implements HtmlBean{

    /**

     *

     */

    private static final long serialVersionUID = 1L;

    @Request

    private HttpRequest request;

    @HtmlField(cssPath="div.col-xs-12 blockquote p")

    private String title;

    public HttpRequest getRequest() {

        return request;

    }

    public String getTitle() {

        return title;

    }

    public void setRequest(HttpRequest request) {

        this.request = request;

    }

    public void setTitle(String title) {

        this.title = title;

    }

}

这个java文件是用来获取每个论坛详细内容的，为了方便，这个只获取每个论坛的标题，其中的pipelines=“doutusheEntity”中的doutusheEntity又是一个自定义的管道类，其内容为

FinishDoutusheEntity.java

package com.chry.GeccoCSDN;

import com.geccocrawler.gecco.annotation.PipelineName;

import com.geccocrawler.gecco.pipeline.Pipeline;

@PipelineName(value="doutusheEntity")

public class FinishDoutusheEntity implements Pipeline<DoutusheEntity>{

    public void process(DoutusheEntity bean) {

        // TODO Auto-generated method stub

        System.out.println("抓取到的标题为："+bean.getTitle());

    }

}

注：作用就是将前边获取的标题在控制台输出

运行的结果如下：

在做测试时，可以不用自定义的管道类，直接用Gecco中自带的管道类 consolePipeline（在控制台输出结果），如下图所示

到此，一个简单的Gecco程序就算建立完成了，如果有什么问题，可以留言，我会持续更细。

Java爬虫——Gecco简单入门程序（根据下一页一直爬数据）的更多相关文章

Java的多线程简单入门
Java的多线程简单入门首先能够先搞清楚什么是程序.进程.线程,以及它们之间的关系: 定义: 一程序仅仅是一组指令的有序集合.它是静态的二进程是具有一定独立功能的程序关于某个数据集合上的一次 ...
初学Python之爬虫的简单入门
初学Python之爬虫的简单入门一.什么是爬虫? 1.简单介绍爬虫爬虫的全称为网络爬虫,简称爬虫,别名有网络机器人,网络蜘蛛等等. 网络爬虫是一种自动获取网页内容的程序,为搜索引擎提供了重要的 ...
Python爬虫的简单入门(一)
Python爬虫的简单入门(一) 简介这一系列教学是基于Python的爬虫教学在此之前请确保你的电脑已经成功安装了Python(本教程使用的是Python3).爬虫想要学的精通是有点难度的,尤其是遇 ...
MyBatis - 介绍、简单入门程序
JDBC编程中的问题 1. 将SQL语句硬编码到Java代码,不利于系统维护. 设想如何解决:将SQL单独抽取出来,在配置文件(xml方式.properties文件)进行配置. ...
springmvc(一) springmvc框架原理分析和简单入门程序
springmvc这个框架真的非常简单,感觉比struts2还更简单,好好沉淀下来学习~ --WH 一.什么是springmvc? 我们知道三层架构的思想,并且如果你知道ssh的话,就会更加透彻的理解 ...
SpringMVC学习（一）———— springmvc框架原理分析和简单入门程序
一.什么是springmvc? 我们知道三层架构的思想,并且如果你知道ssh的话,就会更加透彻的理解这个思想,struts2在web层,spring在中间控制,hibernate在dao层与数据库打交 ...
Java中Redis简单入门
Redis是一个开源的,先进的 key-value 存储可用于构建高性能,可扩展的 Web 应用程序的解决方案. Redis官方网网站是:http://www.redis.io/,如下: Redis ...
springmvc框架原理分析和简单入门程序
一.什么是springmvc? 我们知道三层架构的思想,并且如果你知道ssh的话,就会更加透彻的理解这个思想,struts2在web层,spring在中间控制,hibernate在dao层与数据库打交 ...
使用轻量级JAVA 爬虫Gecco工具抓取新闻DEMO
写在前面最近看到Gecoo爬虫工具,感觉比较简单好用,所有写个DEMO测试一下,抓取网站 http://zj.zjol.com.cn/home.html,主要抓取新闻的标题和发布时间做为抓取测试对象 ...

随机推荐

part1：8-远程登录Linux
Linux远程登录 Linux系统中是通过ssh服务实现的远程登录功能.默认ssh服务开启了22端口,而且在安装完成系统时,这个服务已经安装,并且是开机启动的.所以不需要额外配置就能直接远程登录Lin ...
Perl的调试模式熟悉和应用
perl -d file.pl perl -c file.pl DB<1> hList/search source lines: Control script ...
ubuntu16下Elasticsearch5.1.1安装部署
本人在安装es5.1.1版本时候整理的一些过程,参照了网上部分过程:其中过程中也出现一些其它问题,出现的问题和解决方案都整理在此文中. 1Elasticsearch5.1.1安装到ES官网https ...
外网不能访问阿里云服务器的apache服务
今天弄了下Ubuntu的服务器,配置了一个LAMP环境的服务器,配置有时间我再来说但是配置了很长的时间,差不都怕是好几个小时在配置apache的时候,出现了问题,好不容易把apache服务配置好 ...
2018.10.18 bzoj4105: [Thu Summer Camp 2015]平方运算（线段树）
传送门线段树妙题. 显然平方几次就会循环(打表证明不解释). 然后所有环长度的lcmlcmlcm不大于70. 因此维护一下当前区间中的节点是否全部在环上. 不是直接暴力到叶子节点修改. 否则整体打标 ...
2018.07.04 POJ 2398 Toy Storage（二分+简单计算几何）
Toy Storage Time Limit: 1000MS Memory Limit: 65536K Description Mom and dad have a problem: their ch ...
bootstrap-treeview的简单使用
理论:http://blog.csdn.net/babyxue/article/details/73835444 插依赖Bootstrap 和jQuery <link href="~/ ...
MySQL终端下常用命令
一:控制类命令 1.show variables like "%datadir%";显示注册在variables中(一个注册表key-value的格式存储数据)key能匹配%dat ...
20155339 2016-2017-2 《Java程序设计》第9周学习总结
20155339 2016-2017-2 <Java程序设计>第9周学习总结教材学习内容总结 JDBC入门 JDBC简介 JDBC全名Java DataBase Connectivity ...
FreeNas FTP配置
FTP服务器与客户端因为拥有强大WebGUI管理界面,在FreeNAS中配置FTP服务变得非常简单.如果你是第一次接触FTP这一概念,那么首先要明白两个核心的概念. FTP服务器:你可以把它想象成一 ...

Java爬虫——Gecco简单入门程序（根据下一页一直爬数据）

Java爬虫——Gecco简单入门程序（根据下一页一直爬数据）的更多相关文章

随机推荐

热门专题