使用轻量级JAVA 爬虫Gecco工具抓取新闻DEMO

写在前面

最近看到Gecoo爬虫工具，感觉比较简单好用，所有写个DEMO测试一下，抓取网站
http://zj.zjol.com.cn/home.html，主要抓取新闻的标题和发布时间做为抓取测试对象。抓取HTML节点通过像Jquery选择器一样选择节点，非常方便，Gecco代码主要利用注解实现来实现URL匹配，看起来比较简洁美观。

Gecoo GitHub地址
https://github.com/xtuhcy/gecco
Gecoo 作者博客
http://my.oschina.net/u/2336761/blog?fromerr=ZuKKo3fH

添加Maven依赖

<dependency>

      <groupId>com.geccocrawler</groupId>

      <artifactId>gecco</artifactId>

      <version>1.0.8</version>

</dependency>

编写抓取列表页面

 @Gecco(matchUrl = "http://zj.zjol.com.cn/home.html?pageIndex={pageIndex}&pageSize={pageSize}",pipelines = "zJNewsListPipelines")

 public class ZJNewsGeccoList implements HtmlBean {

     @Request

     private HttpRequest request;

     @RequestParameter

     private int pageIndex;

     @RequestParameter

     private int pageSize;

     @HtmlField(cssPath = "#content > div > div > div.con_index > div.r.main_mod > div > ul > li  > dl > dt > a")

     private List<HrefBean> newList;

 }

 @PipelineName("zJNewsListPipelines")

 public class ZJNewsListPipelines implements Pipeline<ZJNewsGeccoList> {

     public void process(ZJNewsGeccoList zjNewsGeccoList) {

         HttpRequest request=zjNewsGeccoList.getRequest();

         for (HrefBean bean:zjNewsGeccoList.getNewList()){

             //进入祥情页面抓取

        SchedulerContext.into(request.subRequest("http://zj.zjol.com.cn"+bean.getUrl()));

         }

         int page=zjNewsGeccoList.getPageIndex()+1;

         String nextUrl = "http://zj.zjol.com.cn/home.html?pageIndex="+page+"&pageSize=100";

         //抓取下一页

         SchedulerContext.into(request.subRequest(nextUrl));

     }

 }

编写抓取祥情页面

 @Gecco(matchUrl = "http://zj.zjol.com.cn/news/{code}.html" ,pipelines = "zjNewsDetailPipeline")

 public class ZJNewsDetail implements HtmlBean {

     @Text

     @HtmlField(cssPath = "#headline")

     private String title ;

     @Text

     @HtmlField(cssPath = "#content > div > div.news_con > div.news-content > div:nth-child(1) > div > p.go-left.post-time.c-gray")

     private String createTime;

 }

 @PipelineName("zjNewsDetailPipeline")

 public class ZJNewsDetailPipeline implements Pipeline<ZJNewsDetail> {

     public void process(ZJNewsDetail zjNewsDetail) {

         System.out.println(zjNewsDetail.getTitle()+"  "+zjNewsDetail.getCreateTime());

     }

 }

启动主函数

 public class Main {

     public static void main(String [] rags){

         GeccoEngine.create()

                 //工程的包路径

                 .classpath("com.zhaochao.gecco.zj")

                 //开始抓取的页面地址

                 .start("http://zj.zjol.com.cn/home.html?pageIndex=1&pageSize=100")

                 //开启几个爬虫线程

                 .thread(10)

                 //单个爬虫每次抓取完一个请求后的间隔时间

                 .interval(10)

                 //使用pc端userAgent

                 .mobile(false)

                 //开始运行

                 .run();

     }

 }

抓取结果

项目完成代码

http://git.oschina.net/whzhaochao/geccoDemo

使用轻量级JAVA 爬虫Gecco工具抓取新闻DEMO的更多相关文章

Java爬虫，信息抓取的实现
转载请注明出处:http://blog.csdn.net/lmj623565791/article/details/23272657 今天公司有个需求,需要做一些指定网站查询后的数据的抓取,于是花了点 ...
（转）Java爬虫，信息抓取的实现
转载请注明出处:http://blog.csdn.net/lmj623565791/article/details/23272657 今天公司有个需求,需要做一些指定网站查询后的数据的抓取,于是花了点 ...
Java爬虫，信息抓取的实现（转）
转载请注明出处:http://blog.csdn.net/lmj623565791/article/details/23272657 今天公司有个需求,需要做一些指定网站查询后的数据的抓取,于是花了点 ...
java使用htmlunit工具抓取js中加载的数据
htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容.项目可以模拟浏览器运行,被誉为java浏览器的开源实现.这个没有界面的浏览器,运行速度 ...
教您使用java爬虫gecco抓取JD全部商品信息
gecco爬虫如果对gecco还没有了解可以参看一下gecco的github首页.gecco爬虫十分的简单易用,JD全部商品信息的抓取9个类就能搞定. JD网站的分析要抓取JD网站的全部商品信息, ...
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容 Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖 ...
selenium-java web自动化测试工具抓取百度搜索结果实例
selenium-java web自动化测试工具抓取百度搜索结果实例这种方式抓百度的搜索关键字结果非常容易抓长尾关键词,根据热门关键词去抓更多内容可以用抓google,百度的这种内容容易给屏蔽,用这 ...
使用wget工具抓取网页和图片及相关工具几个
想保存一些网页,最后找到这 wget 的 shell脚本,虽然不是太理想,亲测可用呢. 使用wget工具抓取网页和图片来源 https://my.oschina.net/freestyletim ...
PHP网络爬虫实践：抓取百度搜索结果，并分析数据结构
百度的搜索引擎有反爬虫机制,我先直接用guzzle试试水.代码如下: <?php /** * Created by Benjiemin * Date: 2020/3/5 * Time: 14:5 ...

随机推荐

linux 定时任务 crontab 详细解释(转)
cron 是linux的内置服务,但它不自动起来,可以用以下的方法启动.关闭这个服务: 引用: /sbin/service crond start //启动服务 /sbin/service cr ...
HeapAlloc 和 GlobalAlloc 以及 VirtualAlloc 三者之间的关系(转)
VirtualAlloc 一次分配 1PAGE 以上的 RAM. 每次分配都是 PAGE 的整数倍. 你不会想为了分配 1 个 BYTE 的空间而浪费剩下的 4095 字节. OK, 你可以自己写算法 ...
清理IIS Express上的网站
默认情况下,当使用Visual Studio浏览网页时,网站会被保存在IIS Express上,这些网站需要手动清理.可以通过命令行或界面进行清理. □ 通过命令行 →找到appcmd.exe在C:\ ...
DI容器Ninject在管理接口和实现、基类和派生类并实现依赖注入方面的实例
当一个类依赖于另一个具体类的时候,这样很容易形成两者间的"强耦合"关系.我们通常根据具体类抽象出一个接口,然后让类来依赖这个接口,这样就形成了"松耦合"关系,有 ...
iOS News Reader开源项目
项目介绍 NewsReader项目是一个新闻阅读类开源项目,支持iPhone和iPad. 目前基于该项目并且已发布到App Store的产品有: VOA慢速英语和每天6分钟英语等项目源码地址:htt ...
Struts2 S标签数目字格式化成金额输出（保留两位小数）
JSP: <s:property value="%{formatDouble(price)}" /> Action:添加 //格式化数字显示 public String ...
10 Big Data Possibilities for 2017 Based on Oracle's Predictions
2017 will see a host of informed predictions, lower costs, and even business-centric gains, courtesy ...
深入理解Java中的组合和继承
Java是一个面向对象的语言.每一个学习过Java的人都知道,封装.继承.多态是面向对象的三个特征.每个人在刚刚学习继承的时候都会或多或少的有这样一个印象:继承可以帮助我实现类的复用.所以,很多开发人 ...
附 5 springboot之配置文件
本文转载自http://www.jianshu.com/p/80621291373b,作者:龙白一梦我的boss 代码从开发到测试要经过各种环境,开发环境,测试环境,demo环境,线上环境,各种环境 ...
zoj 2860 四边形优化dp
Breaking Strings Time Limit: 2 Seconds Memory Limit: 65536 KB A certain string-processing lan ...

使用轻量级JAVA 爬虫Gecco工具抓取新闻DEMO

写在前面

添加Maven依赖

编写抓取列表页面

编写抓取祥情页面

启动主函数

抓取结果

项目完成代码

使用轻量级JAVA 爬虫Gecco工具抓取新闻DEMO的更多相关文章

随机推荐

热门专题