Java开源爬虫框架crawler4j】的更多相关文章

花了两个小时把Java开源爬虫框架crawler4j文档翻译了一下,因为这几天一直在学习Java爬虫方面的知识,今天上课时突然感觉全英文可能会阻碍很多人学习的动力,刚好自己又正在接触这个爬虫框架,所以决定翻译一下.六级540多分的水平,大家见谅 .每句话都有根据自己的理解来翻译.特别是快速开始那一部分的源代码.这里是: github项目地址 crawler4j crawler4j是一个开源的Java抓取Web爬虫,它提供了一个简单的抓取Web的界面. 使用它,你可以在几分钟内设置一个多线程的网络…
本文列举了一些较为常用的JAVA开源爬虫框架: 1.Apache Nutch 官方网站:http://nutch.apache.org/ 是否支持分布式:是 可扩展性:中.Apache Nutch并不是一个可扩展性很强的爬虫,它是一个专门为搜索引擎定制的网络爬虫,虽然Apache Nutch具有一套强大的插件机制,但通过定制插件并不能修改爬虫的遍历算法.去重算法和爬取流程. 适用性:Apache Nutch是为搜索引擎定制的爬虫,具有一套适合搜索引擎的URL维护机制(包括URL去重.网页更新等)…
通过源码分析Java开源任务调度框架Quartz的主要流程 从使用效果.调用链路跟踪.E-R图.循环调度逻辑几个方面分析Quartz. github项目地址: https://github.com/tanliwei/spring-quartz-cluster-sample , 补充了SQL输出 系统说明: IDE: IntelliJ JDK:1.8 Quartz:2.2.1 使用效果 1.从github项目https://github.com/tanliwei/spring-quartz-clu…
一.WebCollector介绍 WebCollector是一个无须配置.便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫. WebCollector致力于维护一个稳定.可扩的爬虫内核,便于开发者进行灵活的二次开发.内核具有很强的扩展性,用户可以在内核基础上开发自己想要的爬虫.源码中集成了Jsoup,可进行精准的网页解析. 二.WebCollector使用 1.下载地址:http://crawlscript.github.io/WebColle…
原文地址:http://www.open-open.com/13.htm  JBossCache/TreeCache  JBossCache是一个复制的事务处理缓存,它允许你缓存企业级应用数据来更好的改善性能.缓存数据被自动复制,让你轻松进行Jboss服务器之间的集群工作.JBossCache能够通过Jboss应用服务或其他J2EE容器来运行一个Mbean服务,当然,它也能独立运行. JBossCache包括两个模块:TreeCache和TreeCacheAOP. TreeCache --是一个…
1.简介 AiPa 是一款小巧,灵活,扩展性高的多线程爬虫框架. AiPa 依赖当下最简单的HTML解析器Jsoup. AiPa 只需要使用者提供网址集合,即可在多线程下自动爬取,并对一些异常进行处理. 2.Maven 直接引入 <dependency> <groupId>cn.yueshutong</groupId> <artifactId>AiPa</artifactId> <version>1.0.0.RELEASE</v…
AJSprider 概述 AJSprider是笔者基于Reactor线程模式+Jsoup+HttpClient封装的一款轻量级java多线程网络爬虫框架,简单上手,小白也能玩爬虫, 使用本框架,只需要关注如何解析(提供了无脑的匹配取值方法),而不闭关心线程的调度,源码的下载; 本项目仅供学习使用,禁止任何人用它非法盈利 坐标 <repositories> <repository> <id>jitpack.io</id> <url>https://…
APACHE SHIRO安全框架 1      背景 Shiro项目始于2003年初,当时它叫JSecurity项目,当时对于Java应用开发人员没有太多的安全替代方案,始终被一个叫JAAS(Java认证/授权服务)束缚着,但是JAAS缺点太多了,如它的授权机制太拙劣,用起来让人沮丧,又一方面JAAS跟虚拟机层面的安全问题关系非常紧密,如判断JVM中判断是否允许装入一个类等,还有加密问题,JAVA中的密码架构又是让人难以理解.于是Jsecurity就诞生了,后来更名为Shiro. 直到2008年…
1.1.简介 Apache Shiro 是Java的一个安全框架.目前使用Apache Shiro 的人越来越多,因为它相当简单,对比Spring Security,可能没有没有Spring Security 得功能强大.但是实际工作中可能并不需要那么复杂的东西.所以使用小而简单的Shiro就足够了.对于他两哪个好,这个不必纠结,能更简单的解决项目问题就好了. Apache Shiro 可以非常容易的开发出足够好的应用,其不仅可以用在JavaSE的环境中,也可以用在JavaEE的环境中.Shir…
一.ehcache.xml 配置详解 单机配置: <ehcache xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="../config/ehcache.xsd"> <diskStore path="D:/mycache"/> <!-- Mandatory Default Cache configu…