使用JAVA爬取博客里面的所有文章

主要思路：

1、找到列表页。

2、找到文章页。

3、用一个队列来保存将要爬取的网页，爬取队头的url，如果队列非空，则一直爬取。

4、如果是列表页，则抽取里面所有的文章url进队；如果是文章页，则直接爬取至本地。

一个博客是起始页url是这样的：

http://www.cnblogs.com/joyeecheung/

第n页是这样的：

http://www.cnblogs.com/joyeecheung/default.html?page=n

文章的url是这样的：

http://www.cnblogs.com/joyeecheung/p/[0-9]+.html

代码如下：

public class boke {

    private Queue<String> data = new LinkedList<String>();

    //文章页面

    String PAGE = "http://www.cnblogs.com/joyeecheung/p/[0-9]+.html";

    Pattern p = Pattern.compile(PAGE);

    public void action(String target) throws IOException{

        Matcher m = p.matcher(target);

        //如果是文章页面则读取

        if(m.find()){

            URL url = new URL(target);

            HttpURLConnection conn = (HttpURLConnection)url.openConnection();

            conn.connect();

            InputStream in = conn.getInputStream();

            byte[] buf = new byte [1024];

            int len = 0;

            //分割url，把文章的编号作为文件的名字

            String [] bufen = target.split("/");

            String name = bufen[bufen.length-1];

            name = name.replaceAll("html", "txt");

            File file = new File(name);

            FileOutputStream fp = new FileOutputStream(file);

            while((len=in.read(buf))!=-1){

                fp.write(buf, 0, len);

            }

            fp.close();

        }

        //如果是列表页面

        //抽取里面的文章页面连接

        else{

            URL url = new URL(target);

            HttpURLConnection conn = (HttpURLConnection)url.openConnection();

            conn.connect();

            InputStream in = conn.getInputStream();

            byte [] buf = new byte[1024];

            //把列表页的内容放到ByteArrayOutputStream中

             ByteArrayOutputStream outStream = new ByteArrayOutputStream();

             int len = 0;

                while((len=in.read(buf))!=-1){

                    //System.out.println(len);

                    outStream.write(buf,0,len);

                }

                in.close();

                outStream.close();

                String content = new String(outStream.toByteArray());

                Matcher page = p.matcher(content);

                //抽取文章的url

                while(page.find()){

                    //将抽取的文章url进队

                    data.add(page.group());

                }

        }

    }

    public static void main(String args[]) throws IOException{

        boke test = new boke();

        //起始页面

        String start = "http://www.cnblogs.com/joyeecheung/";

        test.data.add(start);

        //列表页面

        String page = "http://www.cnblogs.com/joyeecheung/default.html?page=";

        //总页数

        int total =15;

        //将15页列表页进队

        for(int i=2;i<=total;i++)

            test.data.add(page+i);

        //队列非空则一直爬取

        while(!test.data.isEmpty())

            test.action(test.data.poll());

    }

}

提取到的文章url效果：

爬取后效果：

文章内容效果：

博客里面右边会有推荐的文章栏，还有阅读排行里面的文章，这里的文章url会对我们后面提取到的url造成重复，怎么办呢？

我直接将文章编号作为文件名，如果重复的话，后一个会覆盖前面的内容。

直接用队列存储url，用循环来爬取内容，效率一般。高效率的爬虫支持多线程爬取，在此就不展开了。

这次对我关注的Joyee的文章进行了爬取，只是用作测试程序效果，没有恶意，如有冒犯，请联系删除，谢谢。

使用JAVA爬取博客里面的所有文章的更多相关文章

python爬取博客圆首页文章链接+标题
新人一枚,初来乍到,请多关照来到博客园,不知道写点啥,那就去瞄一瞄大家都在干什么好了. 使用python 爬取博客园首页文章链接和标题. 首先当然是环境了,爬虫在window10系统下,python ...
爬虫---lxml爬取博客文章
上一篇大概写了下lxml的用法,今天我们通过案例来实践,爬取我的博客博客并保存在本地爬取博客园博客爬取思路: 1.首先找到需要爬取的博客园地址 2.解析博客园地址 # coding:utf-8 i ...
Java使用Jsoup之爬取博客数据应用实例
导入Maven依赖  <dependency> <g ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
python 小爬虫爬取博客文章初体验
最近学习 python 走火入魔,趁着热情继续初级体验一下下爬虫,以前用 java也写过,这里还是最初级的爬取html,都没有用html解析器,正则等...而且一直在循环效率肯定### 很低下 imp ...
Java爬取网络博客文章
前言近期本人在某云上购买了个人域名,本想着以后购买与服务器搭建自己的个人网站,由于需要筹备的太多,暂时先搁置了,想着先借用GitHub Pages搭建一个静态的站,搭建的过程其实也曲折,主要是域名地 ...
【Android 我的博客APP】1.抓取博客首页文章列表内容——网页数据抓取
打算做个自己在博客园的博客APP,首先要能访问首页获取数据获取首页的文章列表,第一步抓取博客首页文章列表内容的功能已实现,在小米2S上的效果图如下: 思路是:通过编写的工具类访问网页,获取页面源代码, ...
[js高手之路]Node.js实现简易的爬虫-抓取博客文章列表信息
抓取目标:就是我自己的博客:http://www.cnblogs.com/ghostwu/ 需要实现的功能: 抓取文章标题,超链接,文章摘要,发布时间需要用到的库: node.js自带的http库 ...
Java课程设计——博客作业教学数据分析系统（201521123082 黄华林）
Java课程设计--博客作业教学数据分析系统(201521123082 黄华林) 一.团队课程设计博客链接博客作业教学数据分析系统(From:网络五条狗) 二.个人负责模块或任务说明 1.网络爬虫 ...

随机推荐

Ceph与OpenStack整合(仅为云主机提供云盘功能)
1. Ceph与OpenStack整合(仅为云主机提供云盘功能) 创建: linhaifeng,最新修改: 大约1分钟以前 ceph ceph osd pool create volumes 128 ...
flash播放器插件与flash播放器的区别
flash插件是一个网页ActiveX控件,而flash播放器是一个exe的可执行程序.前者用于播放网页中的falsh动画,而后者用于播放本地swf格式文件.
PostgreSQL日志配置记录
日志审计审计是值记录用户的登陆退出以及登陆后在数据库里的行为操作,可以根据安全等级不一样设置不一样级别的审计, 此处涉及的参数文件有: logging_collector --是否开启日 ...
Arcgis for javascript map操作addLayer详解
本节的内容很简单,说说Arcgis for Javascript里面map对象的addLayer方法.在for JS的API中,addLayer方法有两种,如下图: addLayer方法在addLa ...
poj3107（dfs，树形dp）
和poj1655的方法完全一样,但是这道题的n的范围大了,用vector存图会TLE(poj没有O2编译优化),所以改用前向星来存图就可以了.. 有关树的重心,看这里:poj1655 这里解释一下前向 ...
[转载] ffmpeg摄像头视频采集-采集步骤概述并采集一帧视频
近期由于工作任务,需要开发一个跨平台视频聊天系统,其中就用到了ffmpeg进行采集与编码,网上找了一大堆的资料,虽然都有一些有用的东西,但实在太碎片化了,这几天一直在整理和实验这些资料,边整理,边做一 ...
HDU - 6268： Master of Subgraph （分治+bitset优化背包）
题意:T组样例,给次给出一个N节点的点权树,以及M,问连通块的点权和sum的情况,输出sum=1到M,用0或者1表示. 思路:背包,N^2,由于是无向的连通块,所以可以用分治优化到NlgN. 然后背包 ...
netcat 瑞士军刀
netcat被誉为网络安全界的‘瑞士军刀’,一个简单而有用的工具,透过使用TCP或UDP协议的网络连接去读写数据.它被设计成一个稳定的后门工具,能够直接由其它程序和脚本轻松驱动.同时,它也是一个功能强 ...
《DSP using MATLAB》示例Example7.22
代码: h = [1, 2, 3, 4, 3, 2, 1]/15; M = length(h); n = 0:M-1; [Hr, w, a, L] = Hr_Type1(h); a L amax = ...
LA4728 Squares
题意 PDF 分析就是求凸包点集的直径. 当然选择旋转卡壳. 然后是实现上的技巧: 当Area(p[u], p[u+1], p[v+1]) <= Area(p[u], p[u+1], p[v] ...

使用JAVA爬取博客里面的所有文章

使用JAVA爬取博客里面的所有文章的更多相关文章

随机推荐

热门专题