主要思路:

1、找到列表页。

2、找到文章页。

3、用一个队列来保存将要爬取的网页,爬取队头的url,如果队列非空,则一直爬取。

4、如果是列表页,则抽取里面所有的文章url进队;如果是文章页,则直接爬取至本地。

一个博客是起始页url是这样的:

http://www.cnblogs.com/joyeecheung/

第n页是这样的:

http://www.cnblogs.com/joyeecheung/default.html?page=n

文章的url是这样的:

http://www.cnblogs.com/joyeecheung/p/[0-9]+.html

代码如下:

public class boke {

    private Queue<String> data = new LinkedList<String>();

    //文章页面
String PAGE = "http://www.cnblogs.com/joyeecheung/p/[0-9]+.html"; Pattern p = Pattern.compile(PAGE); public void action(String target) throws IOException{ Matcher m = p.matcher(target); //如果是文章页面则读取
if(m.find()){ URL url = new URL(target); HttpURLConnection conn = (HttpURLConnection)url.openConnection(); conn.connect(); InputStream in = conn.getInputStream(); byte[] buf = new byte [1024]; int len = 0; //分割url,把文章的编号作为文件的名字
String [] bufen = target.split("/"); String name = bufen[bufen.length-1]; name = name.replaceAll("html", "txt"); File file = new File(name); FileOutputStream fp = new FileOutputStream(file); while((len=in.read(buf))!=-1){ fp.write(buf, 0, len); } fp.close(); }
//如果是列表页面
//抽取里面的文章页面连接
else{ URL url = new URL(target); HttpURLConnection conn = (HttpURLConnection)url.openConnection(); conn.connect(); InputStream in = conn.getInputStream(); byte [] buf = new byte[1024]; //把列表页的内容放到ByteArrayOutputStream中
ByteArrayOutputStream outStream = new ByteArrayOutputStream(); int len = 0; while((len=in.read(buf))!=-1){
//System.out.println(len);
outStream.write(buf,0,len);
}
in.close();
outStream.close(); String content = new String(outStream.toByteArray()); Matcher page = p.matcher(content); //抽取文章的url
while(page.find()){ //将抽取的文章url进队
data.add(page.group()); } } } public static void main(String args[]) throws IOException{ boke test = new boke(); //起始页面
String start = "http://www.cnblogs.com/joyeecheung/"; test.data.add(start); //列表页面
String page = "http://www.cnblogs.com/joyeecheung/default.html?page="; //总页数
int total =15; //将15页列表页进队
for(int i=2;i<=total;i++)
test.data.add(page+i); //队列非空则一直爬取
while(!test.data.isEmpty())
test.action(test.data.poll()); } }

提取到的文章url效果:

爬取后效果:

文章内容效果:

博客里面右边会有推荐的文章栏,还有阅读排行里面的文章,这里的文章url会对我们后面提取到的url造成重复,怎么办呢?

我直接将文章编号作为文件名,如果重复的话,后一个会覆盖前面的内容。

直接用队列存储url,用循环来爬取内容,效率一般。高效率的爬虫支持多线程爬取,在此就不展开了。

这次对我关注的Joyee的文章进行了爬取,只是用作测试程序效果,没有恶意,如有冒犯,请联系删除,谢谢。

使用JAVA爬取博客里面的所有文章的更多相关文章

  1. python爬取博客圆首页文章链接+标题

    新人一枚,初来乍到,请多关照 来到博客园,不知道写点啥,那就去瞄一瞄大家都在干什么好了. 使用python 爬取博客园首页文章链接和标题. 首先当然是环境了,爬虫在window10系统下,python ...

  2. 爬虫---lxml爬取博客文章

    上一篇大概写了下lxml的用法,今天我们通过案例来实践,爬取我的博客博客并保存在本地 爬取博客园博客 爬取思路: 1.首先找到需要爬取的博客园地址 2.解析博客园地址 # coding:utf-8 i ...

  3. Java使用Jsoup之爬取博客数据应用实例

    导入Maven依赖 <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup --> <dependency> <g ...

  4. Python开发爬虫之动态网页抓取篇:爬取博客评论数据——通过Selenium模拟浏览器抓取

    区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...

  5. python 小爬虫爬取博客文章初体验

    最近学习 python 走火入魔,趁着热情继续初级体验一下下爬虫,以前用 java也写过,这里还是最初级的爬取html,都没有用html解析器,正则等...而且一直在循环效率肯定### 很低下 imp ...

  6. Java爬取网络博客文章

    前言 近期本人在某云上购买了个人域名,本想着以后购买与服务器搭建自己的个人网站,由于需要筹备的太多,暂时先搁置了,想着先借用GitHub Pages搭建一个静态的站,搭建的过程其实也曲折,主要是域名地 ...

  7. 【Android 我的博客APP】1.抓取博客首页文章列表内容——网页数据抓取

    打算做个自己在博客园的博客APP,首先要能访问首页获取数据获取首页的文章列表,第一步抓取博客首页文章列表内容的功能已实现,在小米2S上的效果图如下: 思路是:通过编写的工具类访问网页,获取页面源代码, ...

  8. [js高手之路]Node.js实现简易的爬虫-抓取博客文章列表信息

    抓取目标:就是我自己的博客:http://www.cnblogs.com/ghostwu/ 需要实现的功能: 抓取文章标题,超链接,文章摘要,发布时间 需要用到的库: node.js自带的http库 ...

  9. Java课程设计——博客作业教学数据分析系统(201521123082 黄华林)

    Java课程设计--博客作业教学数据分析系统(201521123082 黄华林) 一.团队课程设计博客链接 博客作业教学数据分析系统(From:网络五条狗) 二.个人负责模块或任务说明 1.网络爬虫 ...

随机推荐

  1. 【scala】语法的省略

    我们直到JAVA在语法方面是冗长的,但是JAVA的可读性非常好. 在Scala的语法并不像JAVA那样冗长,但是又不失可读性,我们这里记录一下常见的语法省略. 首先是我们可以省略数据类型,因为Scal ...

  2. 2017.11.16 STM8L052 温度控制器

    1 J-link和ST-link的兼容性 STM8只能用ST-link.J-link兼容所有的(大部分而已)的ARM内核IC mark:  http://bbs.eeworld.com.cn/thre ...

  3. pip国内镜像(清华大学镜像)

    网上搜到的pip国内镜像大部分是豆瓣的 http://pypi.douban.com/simple/ 但是根本不全,很多包没有 所以推荐清华大学的 https://pypi.tuna.tsinghua ...

  4. 第一次使用stackoverflow的寻求帮助

    最近在研究一项资料很少的技术--Drools,遇到一个很棘手的问题,搜遍所有网站,百度.谷歌都找不到解决方案.无奈之下,想起了stackoverflow这个技术问答网站.于是鼓足勇气,用蹩脚的英文在上 ...

  5. [置顶] Android逆向从未如此简单

    哈,又标题党了..不过我一定竭尽所能,写一篇最亲民的入门文章. 本文仅供学习交流之用,切勿用于非法用途,读者若运用所学知识,进行非法任何商业目的或者非法牟利,一切责任由操作者自行承担,与本人无关.希望 ...

  6. Django cookie与session

    cookie与session关系 cookie 是保存在客户端浏览器的键值对,浏览器发送请求时候会自动携带. session 1.生成随机字符串 2.回给浏览器,让它写到cookie # {" ...

  7. 多进程(了解):守护进程,互斥锁,信号量,进程Queue与线程queue(生产者与消费者模型)

    一.守护进程 主进程创建守护进程,守护进程的主要的特征为:①守护进程会在主进程代码执行结束时立即终止:②守护进程内无法继续再开子进程,否则会抛出异常. 实例: from multiprocessing ...

  8. 微信小程序转支付宝小程序

    使用方法: npm install wx-alipay -g wxToalipay --src={{小程序源码目录}} --dest={{支付宝小程序目录,可缺省}} 点击回车后就可将微信小程序转换为 ...

  9. IDEA导出想要的sql供H2数据库使用

    通过Database连接远程oracle数据库. 选择对应的数据库 双击该数据库需要查询的表,进行自动查询,展示结果. 在查询结果中选择某条数据,右键,选择Data Executer,选择对应的方式. ...

  10. bzoj 4465 游戏中的学问

    Written with StackEdit. Description 大家应该都见过很多人手拉手围着篝火跳舞的场景吧?一般情况下,大家手 拉手跳舞总是会围成一个大圈,每个人的左手拉着旁边朋友的右手, ...