java小爬虫

爬取煎蛋网

1、找出页面网址的规律

2、设计页面图片网址的正则

代码：

import java.io.BufferedInputStream;

import java.io.BufferedOutputStream;

import java.io.BufferedReader;

import java.io.BufferedWriter;

import java.io.File;

import java.io.FileOutputStream;

import java.io.FileWriter;

import java.io.InputStreamReader;

import java.net.MalformedURLException;

import java.net.URL;

import java.util.ArrayList;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class SpiderTest {

    private static ArrayList<String> urlStrs = new ArrayList<String>();

    private static String regx = "\"[\\S]*\\.(jpg|gif)";   //读取jpg和gif图片的正则

    private static int num = 0;        //图片名递增量

    public static void main(String[] args)throws Exception{

        //String urlStr = "http://jandan.net/ooxx/page-2381#comments";        //要抓取的煎蛋妹子网页示例

        String urlStr="";

        String dstDir = "d:/dstDir";

        int start = 2340;    //起始页

        int end = 2370;        //结束页

        for(int i=start;i<=end;i++){

            urlStr = "http://jandan.net/ooxx/page-"+i+"#comments";

            matchAll(urlStr);

            if(urlStrs.size() > 0){

                for(String imgStr:urlStrs){

                    downFile(imgStr,dstDir);

                    Thread.sleep(300);    //休息一会

                }

            }

            urlStrs.clear();

        }

        System.out.println("网址抓取完毕");

    }

    /*

     * @param:urlStr 要爬取的网址

     */

    private static void matchAll(String urlStr)throws Exception{

        Pattern p = Pattern.compile(regx);

        Matcher m;

        URL url;

        try {

            url = new URL(urlStr);

        } catch (MalformedURLException e) {

            throw new Exception("网址不存在");

        }

        BufferedReader read= new BufferedReader(new InputStreamReader(url.openStream()));

        String line = "";

        while((line = read.readLine()) != null){

            m = p.matcher(line);

            while(m.find()){

                System.out.println(m.group());

                urlStrs.add("http:"+m.group().substring(1));        //将图片网址添加到ArrayList(过滤第一个双引号)

            }

        }

        read.close();

    }

    /*下载指定图片网址的图片

     * @param:urlStr 图片网址

     * @param:dstDir 图片存放目录

     */

    private static void downFile(String urlStr,String dstDir)throws Exception{

        byte[] bBuf = new byte[1024];

        File dir = new File(dstDir);

        String fileName = "";

        if(!dir.exists()){

            dir.mkdir();

        }

        if(urlStr.endsWith("jpg")){

            fileName = (num++) + ".jpg";

        }else if(urlStr.endsWith("gif")){

            fileName = (num++) + ".gif";

        }

        File imgFile = new File(dstDir,fileName);

        //if(imgFile.exists()){

        //    TODO..

        //}

        URL url = new URL(urlStr);

        BufferedInputStream in = new BufferedInputStream(url.openStream());

        BufferedOutputStream out = new BufferedOutputStream(new FileOutputStream(imgFile));

        System.out.println("开始下载。。");

        int len = 0;

        while((len = in.read(bBuf)) != -1){

            out.write(bBuf,0,len);

        }

        System.out.println("下载完毕");

        in.close();

        out.close();

    }

    /*

     * 获取网页源码(此方法没有使用)

     */

    private void getSourceCode(String u)throws Exception{

        //String u = "http://m.onepiece.cc/post/10001/";

        File f = new File("d:/tmp.txt");

        if(!f.exists()){

            f.createNewFile();

        }

        URL url = new URL(u);

        BufferedReader read = new BufferedReader(new InputStreamReader(url.openStream()));

        BufferedWriter write = new BufferedWriter(new FileWriter(f));

        String s = "";

        while((s=read.readLine()) != null){

            write.write(s);

            write.write('\n');

        }

        System.out.println("拷贝完成");

        read.close();

        write.close();

    }

}

java小爬虫的更多相关文章

java正则表达式之java小爬虫
这个java小爬虫, 功能很简单,只有一个,抓取网上的邮箱.用到了javaI/O,正则表达式. public static void main(String[] args) throws IOExce ...
Java豆瓣电影爬虫——小爬虫成长记（附源码）
以前也用过爬虫,比如使用nutch爬取指定种子,基于爬到的数据做搜索,还大致看过一些源码.当然,nutch对于爬虫考虑的是十分全面和细致的.每当看到屏幕上唰唰过去的爬取到的网页信息以及处理信息的时候, ...
node.js 开发简易的小爬虫
node.js 开发简易的小爬虫最近公司开发一款医药类的软件,所以需要一些药品的基础数据,所以本人就用node.js写一个简易的小爬虫,并写记录这个Demo以供大家参考. 一.开发前的准备: 1, ...
JAVA小项目实例源码—学习娱乐小助手
代码地址如下:http://www.demodashi.com/demo/11456.html 一.程序实现项目目录: MyJFrame:实现项目界面样式: AppProcess:实现调用api或爬 ...
学 Java 网络爬虫，需要哪些基础知识？
说起网络爬虫,大家想起的估计都是 Python ,诚然爬虫已经是 Python 的代名词之一,相比 Java 来说就要逊色不少.有不少人都不知道 Java 可以做网络爬虫,其实 Java 也能做网络爬 ...
Java 网络爬虫，就是这么的简单
这是 Java 网络爬虫系列文章的第一篇,如果你还不知道 Java 网络爬虫系列文章,请参看学 Java 网络爬虫,需要哪些基础知识.第一篇是关于 Java 网络爬虫入门内容,在该篇中我们以采集虎扑 ...
Java 多线程爬虫及分布式爬虫架构探索
这是 Java 爬虫系列博文的第五篇,在上一篇 Java 爬虫服务器被屏蔽,不要慌,咱们换一台服务器中,我们简单的聊反爬虫策略和反反爬虫方法,主要针对的是 IP 被封及其对应办法.前面几篇文章我们把 ...
放养的小爬虫--豆瓣电影入门级爬虫(mongodb使用教程~)
放养的小爬虫--豆瓣电影入门级爬虫(mongodb使用教程~) 笔者声明:只用于学习交流,不用于其他途径.源代码已上传github.githu地址:https://github.com/Erma-Wa ...
放养的小爬虫--京东定向爬虫(AJAX获取价格数据)
放养的小爬虫--京东定向爬虫(AJAX获取价格数据) 笔者声明:只用于学习交流,不用于其他途径.源代码已上传github.githu地址:https://github.com/Erma-Wang/Sp ...

随机推荐

web页面的绝对路径
在JavaWeb开发中,常使用绝对路径的方式来引入JavaScript和CSS文件,这样可以避免因为目录变动导致引入文件找不到的情况,常用的做法如下:一.使用${pageContext.request ...
sqlalchemy常用语法
一.新增数据 # 新增一条数据 user_obj = User(name="bigberg", passwd="twgdh123") Session.add(u ...
docker的优势
基于微服务的架构已经成为一种流行趋势.而Docker则给微服务的蓬勃发展注入了更强的活力. docker的吸引能力主要来自两方面:快速和可移植. 1.快速普通的虚拟机每次都需要启动一个完整的操作系统 ...
ShareRepository
文件共享下载链接: 1:关于模拟器的配置附件http://pan.baidu.com/s/1jGFqfh8 原文地址:http://www.cnblogs.com/killerlegend/p/382 ...
2017 清北济南考前刷题Day 5 morning
期望得分:100+100+0=200 实际得分: 坐标的每一位不是0就是1,所以答案就是 C(n,k) #include<cstdio> #include<iostream> ...
GTD实践2周年后一些体会
从2011年7月1日算起,实践GTD已经有2年多了,在GTD一周年时写了<用iPhone打造GTD实践1周年的心得体会>这篇文章,随着实践的深入,如今又有了一些新的认识,2013年初制定的 ...
【整理】HTML5游戏开发学习笔记（1）- 骰子游戏
<HTML5游戏开发>,该书出版于2011年,似乎有些老,可对于我这样没有开发过游戏的人来说,却比较有吸引力,选择自己感兴趣的方向来学习html5,css3,相信会事半功倍.不过值得注意的 ...
为什么我要用 Node.js? 案例逐一介绍
介绍 JavaScript 高涨的人气带来了很多变化,以至于如今使用其进行网络开发的形式也变得截然不同了.就如同在浏览器中一样,现在我们也可以在服务器上运行 JavaScript ,从前端跨越到后端, ...
c++刷题（12/100）无序数组中和为定值的最长子数组
题目一: 最短无序连续子数组给定一个整数数组,你需要寻找一个连续的子数组,如果对这个子数组进行升序排序,那么整个数组都会变为升序排序. 你找到的子数组应是最短的,请输出它的长度. 示例 1: 输入: ...
c语言学习笔记.链表.
链表: 链表单个节点的数据结构.链表的实现主要依靠结构体和指针. 头指针(head)指向链表的第一个节点,然后第一个节点中的指针指向下一个节点,然后依次指到最后一个节点,这样就构成了一条链表. str ...

java小爬虫

java小爬虫的更多相关文章

随机推荐

热门专题