使用JAVA爬取博客里面的所有文章
主要思路:
1、找到列表页。
2、找到文章页。
3、用一个队列来保存将要爬取的网页,爬取队头的url,如果队列非空,则一直爬取。
4、如果是列表页,则抽取里面所有的文章url进队;如果是文章页,则直接爬取至本地。
一个博客是起始页url是这样的:
http://www.cnblogs.com/joyeecheung/
第n页是这样的:
http://www.cnblogs.com/joyeecheung/default.html?page=n
文章的url是这样的:
http://www.cnblogs.com/joyeecheung/p/[0-9]+.html
代码如下:
public class boke {
private Queue<String> data = new LinkedList<String>();
//文章页面
String PAGE = "http://www.cnblogs.com/joyeecheung/p/[0-9]+.html";
Pattern p = Pattern.compile(PAGE);
public void action(String target) throws IOException{
Matcher m = p.matcher(target);
//如果是文章页面则读取
if(m.find()){
URL url = new URL(target);
HttpURLConnection conn = (HttpURLConnection)url.openConnection();
conn.connect();
InputStream in = conn.getInputStream();
byte[] buf = new byte [1024];
int len = 0;
//分割url,把文章的编号作为文件的名字
String [] bufen = target.split("/");
String name = bufen[bufen.length-1];
name = name.replaceAll("html", "txt");
File file = new File(name);
FileOutputStream fp = new FileOutputStream(file);
while((len=in.read(buf))!=-1){
fp.write(buf, 0, len);
}
fp.close();
}
//如果是列表页面
//抽取里面的文章页面连接
else{
URL url = new URL(target);
HttpURLConnection conn = (HttpURLConnection)url.openConnection();
conn.connect();
InputStream in = conn.getInputStream();
byte [] buf = new byte[1024];
//把列表页的内容放到ByteArrayOutputStream中
ByteArrayOutputStream outStream = new ByteArrayOutputStream();
int len = 0;
while((len=in.read(buf))!=-1){
//System.out.println(len);
outStream.write(buf,0,len);
}
in.close();
outStream.close();
String content = new String(outStream.toByteArray());
Matcher page = p.matcher(content);
//抽取文章的url
while(page.find()){
//将抽取的文章url进队
data.add(page.group());
}
}
}
public static void main(String args[]) throws IOException{
boke test = new boke();
//起始页面
String start = "http://www.cnblogs.com/joyeecheung/";
test.data.add(start);
//列表页面
String page = "http://www.cnblogs.com/joyeecheung/default.html?page=";
//总页数
int total =15;
//将15页列表页进队
for(int i=2;i<=total;i++)
test.data.add(page+i);
//队列非空则一直爬取
while(!test.data.isEmpty())
test.action(test.data.poll());
}
}
提取到的文章url效果:

爬取后效果:

文章内容效果:

博客里面右边会有推荐的文章栏,还有阅读排行里面的文章,这里的文章url会对我们后面提取到的url造成重复,怎么办呢?
我直接将文章编号作为文件名,如果重复的话,后一个会覆盖前面的内容。
直接用队列存储url,用循环来爬取内容,效率一般。高效率的爬虫支持多线程爬取,在此就不展开了。
这次对我关注的Joyee的文章进行了爬取,只是用作测试程序效果,没有恶意,如有冒犯,请联系删除,谢谢。
使用JAVA爬取博客里面的所有文章的更多相关文章
- python爬取博客圆首页文章链接+标题
新人一枚,初来乍到,请多关照 来到博客园,不知道写点啥,那就去瞄一瞄大家都在干什么好了. 使用python 爬取博客园首页文章链接和标题. 首先当然是环境了,爬虫在window10系统下,python ...
- 爬虫---lxml爬取博客文章
上一篇大概写了下lxml的用法,今天我们通过案例来实践,爬取我的博客博客并保存在本地 爬取博客园博客 爬取思路: 1.首先找到需要爬取的博客园地址 2.解析博客园地址 # coding:utf-8 i ...
- Java使用Jsoup之爬取博客数据应用实例
导入Maven依赖 <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup --> <dependency> <g ...
- Python开发爬虫之动态网页抓取篇:爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
- python 小爬虫爬取博客文章初体验
最近学习 python 走火入魔,趁着热情继续初级体验一下下爬虫,以前用 java也写过,这里还是最初级的爬取html,都没有用html解析器,正则等...而且一直在循环效率肯定### 很低下 imp ...
- Java爬取网络博客文章
前言 近期本人在某云上购买了个人域名,本想着以后购买与服务器搭建自己的个人网站,由于需要筹备的太多,暂时先搁置了,想着先借用GitHub Pages搭建一个静态的站,搭建的过程其实也曲折,主要是域名地 ...
- 【Android 我的博客APP】1.抓取博客首页文章列表内容——网页数据抓取
打算做个自己在博客园的博客APP,首先要能访问首页获取数据获取首页的文章列表,第一步抓取博客首页文章列表内容的功能已实现,在小米2S上的效果图如下: 思路是:通过编写的工具类访问网页,获取页面源代码, ...
- [js高手之路]Node.js实现简易的爬虫-抓取博客文章列表信息
抓取目标:就是我自己的博客:http://www.cnblogs.com/ghostwu/ 需要实现的功能: 抓取文章标题,超链接,文章摘要,发布时间 需要用到的库: node.js自带的http库 ...
- Java课程设计——博客作业教学数据分析系统(201521123082 黄华林)
Java课程设计--博客作业教学数据分析系统(201521123082 黄华林) 一.团队课程设计博客链接 博客作业教学数据分析系统(From:网络五条狗) 二.个人负责模块或任务说明 1.网络爬虫 ...
随机推荐
- Superset 初探
安装都是借鉴的别人的,已经剪裁下来.到自己文件夹里了. 下面介绍.如何启动superset ,BI 分析工具.这是我以前的强项.应该没问题. 问题: 安装好了之后,再打开localhost 就拒绝访问 ...
- css中实现显示和隐藏(转)
CSS中的display和visibility 在平时的开发过程中,总是会遇到一些文字在特定的场景下显示或者隐藏来达到我们想要的效果,css中display和visibility语法,他们都 ...
- LeetCode OJ:Intersection of Two Linked Lists(两个链表的插入)
Write a program to find the node at which the intersection of two singly linked lists begins. For ex ...
- request.setAttribute("username", username);//一定要保存,OGNL才能获取${username}
public void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, ...
- Flask 的路由系统 FBV 与 CBV
Flask的路由系统 本质: 带参数的装饰器 传递函数后 执行 add_url_rule 方法 将 函数 和 url 封装到一个 Rule对象 将Rule对象 添加到 app.url_map(Map对 ...
- CentOS 7下sqlite3的问题修复
Centos7下的nltk启动问题 CentOS 7, Python 3.6,ipython 6.0.0 问题描述 ipython 启动ipython命令 import nltk 爆出以下的错误信息: ...
- 转: Photon 3.4 Changed Logs ..
最新版了.修了很多bug. Photon 3.4 http://doc.exitgames.com/en/onpremise/current/reference/version-history/pho ...
- 如何快速上手.net下单元测试工具NUnit?
NUnit基本使用 准备知识: 读此博文需要了解单元测试基本概念及NUnit的的安装. 传送门:单元测试之道(使用NUnit) 1.常见的错误 当学习一个新东西时,先学习错误,是最快的方式. 1.1 ...
- 【JD的一人戏】之"小羊踢足球"第一篇
好多次加班后坐的士回家,副驾驶座位后内嵌的显示屏正好在播放一个美食节目,内容就是一个着装怪异的厨子把各种食材分门别类地摆在你面前,然后用小小的锅碗瓢盆慢慢的做出很精致的够一个人吃的分量的各种美食,做好 ...
- [转载] FFMPEG视音频编解码零基础学习方法
在CSDN上的这一段日子,接触到了很多同行业的人,尤其是使用FFMPEG进行视音频编解码的人,有的已经是有多年经验的“大神”,有的是刚开始学习的初学者.在和大家探讨的过程中,我忽然发现了一个问题:在“ ...