JSOUP爬虫示例

利用JSOUP做爬虫，爬取我博客中的所有标题加链接，代码示例如下：

package com.test.jsoup;

import java.io.IOException;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

public class TestDemo4 {

	public String baseUrl = "http://www.cnblogs.com/zhangfei/p/";

	public String pager = "?page=%s";

	public int getAllPageCount(){

		int count = 0;

		try {

			Document doc = Jsoup.connect(baseUrl).get();

			String countText = doc.select("#myposts>div.pager:nth-of-type(1)>.Pager").text();

			countText = countText.replaceFirst("\\D+(\\d+).*", "$1");

			count = Integer.valueOf(countText);

		} catch (IOException e) {

			e.printStackTrace();

		}

		return count;

	}

	public void crawler(){

		int count = this.getAllPageCount();

		for (int i = 1; i <= count; i++) {

			String url = baseUrl + String.format(pager, i);

			this.testJsop(url);

		}

	}

	public void testJsop(String url) {

		try {

			Document doc = Jsoup.connect(url).get();

			Elements element = doc.select("div.PostList a");

			for (Element e : element) {

				String text = e.text();

				String href = e.attr("href");

				System.out.println(text+" : "+href);

			}

		} catch (IOException e) {

			e.printStackTrace();

		}

	}

	public static void main(String[] args) {

		TestDemo4 t = new TestDemo4();

		t.crawler();

	}

}

JSOUP爬虫示例的更多相关文章

（java）Jsoup爬虫学习--获取智联招聘（老网站）的全国java职位信息，爬取10页
Jsoup爬虫学习--获取智联招聘(老网站)的全国java职位信息,爬取10页,输出职位名称*****公司名称*****职位月薪*****工作地点*****发布日期 import java.io.I ...
【Java】Jsoup爬虫,一个简单获取京东商品信息的小Demo
简单记录 - Jsoup爬虫入门实战数据问题?数据库获取,消息队列中获取中,都可以成为数据源,爬虫! 爬取数据:(获取请求返回的页面信息,筛选出我们想要的数据就可以了!) 我们经常需要分析HTML网 ...
Java广度优先爬虫示例(抓取复旦新闻信息)
一.使用的技术这个爬虫是近半个月前学习爬虫技术的一个小例子,比较简单,怕时间久了会忘,这里简单总结一下.主要用到的外部Jar包有HttpClient4.3.4,HtmlParser2.1,使用的开发 ...
Golang爬虫示例包系列教程(一):pedaily.com投资界爬虫
Golang爬虫示例包文件结构自己用Golang原生包封装了一个爬虫库,源码见go get -u -v github.com/hunterhug/go_tool/spider ---- data ...
jsoup爬虫简书首页数据做个小Demo
代码地址如下:http://www.demodashi.com/demo/11643.html 昨天LZ去面试,遇到一个大牛,被血虐一番,发现自己基础还是很薄弱,对java一些原理掌握的还是不够稳固, ...
（java）Jsoup爬虫学习--获取网页所有的图片，链接和其他信息，并检查url和文本信息
Jsoup爬虫学习--获取网页所有的图片,链接和其他信息,并检查url和文本信息此例将页面图片和url全部输出,重点不太明确,可根据自己的需要输出和截取: import org.jsoup.Jsou ...
Java程序中使用 Jsoup 爬虫( 简单示例 )
一.maven项目里pom添加jsoup依赖 <dependency> <groupId>org.jsoup</groupId> <artifactId> ...
HttpClient&Jsoup爬虫的简单应用
详细的介绍已经有很多前辈总结,引用一下该篇文章:https://blog.csdn.net/zhuwukai/article/details/78644484 下面是一个代码的示例: package ...
Jsoup爬虫任务总结
这两周由于公司需要大量数据爬取进数据库给用户展示素材,在不停的做爬虫工作,现在总算基本完成就剩清理数据的工作: 公司有一个采集器管理后台的项目,可以直接把爬虫代码打包成jar导入进去设置定时参数即可: ...

随机推荐

超实用！！！使用IDEA插件Alibaba Cloud Toolkit工具一键部署本地应用到ECS服务器
最近看到阿里云发布了一款名为 Alibaba Cloud Toolkit 的插件,可以帮助开发者高效开发并部署适合在云端运行的应用,瞬间击中了我的小心脏,这个对于个人开发者来说超级棒啊,终于不需要再手 ...
django的FormView中，自定义初始化表单数据的曲折方法
这个技巧,主要是用于表单初始化及回显. 也就是说,如果用户的数据库里有数据,则要将相应的数据显示在表单里, 如果用户的数据库里没有数据,才会生成一个空白的表单给用户, 这样才显得专业塞! 而我面对的尴 ...
zookeeper在dubbo中干什么
本文旨在表述出自己对于zookeeper在dubbo的作用的初步理解在对dubbo进行了初步的探索后,对于zookeeper在其中的作用不甚了解,因为本身对zookeeper就没有一个特别具体的概念 ...
mydate97时间控件的使用
mydate97官网: http://www.my97.net/dp/index.asp 1:用法如下所示,首先下载一个这个东西: 链接:http://pan.baidu.com/s/1kVmIckv ...
vtiger7安装设置
安装界面一直报错其实是设置的问题 error_reporting:E_WARNING & ~E_NOTICE & ~E_DEPRECATED max_execution_time:6 ...
详解如何在 Linux 中安装最新的 Python 3.6 版本
# 下载源码包安装,先装wget,或curl. yum install wget # 再安装解压缩和编译环境: yum install zlib-devel bzip2-devel openssl-d ...
【spring基础】spring声明式事务详解
一.spring声明式事务 1.1 spring的事务管理器 spring没有直接管理事务,而是将管理事务的责任委托给JTA或相应的持久性机制所提供的某个特定平台的事务实现.spring容器负责事物的 ...
Educational Codeforces Round 26 E - Vasya's Function
数论题还是好恶心啊. 题目大意:给你两个不超过1e12的数 x,y,定义一个f ( x, y ) 如果y==0 返回 0 否则返回1+ f ( x , y - gcd( x , y ) ); 思路:我 ...
2018年商业版idea破解安装介绍
1. IntelliJ IDEA 2018商业版-安装首先去官网http://www.jetbrains.com/idea/download/#section=windows下载Ultimate版( ...
067 Flume协作框架
一:介绍 1.概述 ->flume的三大功能 collecting, aggregating, and moving 收集聚合移动数据源:web service ...

JSOUP爬虫示例

JSOUP爬虫示例的更多相关文章

随机推荐

热门专题