java简单web爬虫(网页图片)

java简单web爬虫(网页图片)
效果，执行main（）方法后图片就下载道C盘的res文件夹中。没有的话创建一个文件夹
代码里的常量根据自己的需求修改，代码附到下面。

package com.sinitek.sirm.common.utils;

import java.io.*;

import java.net.URL;

import java.net.URLConnection;

import java.util.*;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

/**

 * java简单web爬虫(网页图片)

 */

public class Main {

    // 地址

    private static final String URL = "http://www.xxx";

    // 获取img标签正则

    private static final String IMGURL_REG = "<img.*src=(.*?)[^>]*?>";

    // 获取src路径的正则

    private static final String IMGSRC_REG = "src\\s*=\\s*\"?(.*?)(\"|>|\\s+)";

    //图片原始路径(如果src里的路径正确则不用)

    private static final String IMG_LUJING = "http://xxx/";

    //下载路径

    private static final String LUJING = "C:/res/";

    public static void main(String[] args) {

        try {

            Main cm=new Main();

            //获得html文本内容

            String HTML = cm.getHtml(URL);

            //获取图片标签

            List<String> imgUrl = cm.getImageUrl(HTML);

            //获取图片src地址

            List<String> imgSrc = cm.getImageSrc(imgUrl);

            //下载图片

            cm.Download(imgSrc);

        }catch (Exception e){

            System.out.println("发生错误");

        }

    }

   //获取HTML内容

    private String getHtml(String url)throws Exception{

        URL url1=new URL(url);

        URLConnection connection=url1.openConnection();

        InputStream in=connection.getInputStream();

        InputStreamReader isr=new InputStreamReader(in);

        BufferedReader br=new BufferedReader(isr);

        String line;

        StringBuffer sb=new StringBuffer();

        while((line=br.readLine())!=null){

            sb.append(line,0,line.length());

            sb.append('\n');

        }

        br.close();

        isr.close();

        in.close();

        return sb.toString();

    }

    //获取ImageUrl地址

    private List<String> getImageUrl(String html){

        Matcher matcher=Pattern.compile(IMGURL_REG).matcher(html);

        List<String>listimgurl=new ArrayList<String>();

        while (matcher.find()){

            listimgurl.add(matcher.group());

        }

        return listimgurl;

    }

    //获取ImageSrc地址

    private List<String> getImageSrc(List<String> listimageurl){

        List<String> listImageSrc=new ArrayList<String>();

        for (String image:listimageurl){

            // 匹配<img>中的src数据

            Matcher m = Pattern.compile(IMGSRC_REG).matcher(image);

            while (m.find()) {

                String a = m.group(1);//获取图片路径

                a = IMG_LUJING+a;//数据拼接

                listImageSrc.add(a);

            }

        }

        return listImageSrc;

    }

    //下载图片

    private void Download(List<String> listImgSrc) {

        try {

            //开始时间

            Date begindate = new Date();

            for (String url : listImgSrc) {

                //开始时间

                Date begindate2 = new Date();

                String imageName = url.substring(url.lastIndexOf("/") + 1, url.length());

                URL uri = new URL(url);

                InputStream in = uri.openStream();

                FileOutputStream fo = new FileOutputStream(new File(LUJING+imageName));//路径

                byte[] buf = new byte[1024];

                int length = 0;

                System.out.println("开始下载:" + url);

                while ((length = in.read(buf, 0, buf.length)) != -1) {

                    fo.write(buf, 0, length);

                }

                in.close();

                fo.close();

                System.out.println(imageName + "下载完成");

                //结束时间

                Date overdate2 = new Date();

                double time = overdate2.getTime() - begindate2.getTime();

                System.out.println("耗时：" + time / 1000 + "s");

            }

            Date overdate = new Date();

            double time = overdate.getTime() - begindate.getTime();

            System.out.println("总耗时：" + time / 1000 + "s");

        } catch (Exception e) {

            System.out.println("下载失败");

        }

    }

}

java简单web爬虫(网页图片)的更多相关文章

java爬虫-简单爬取网页图片
刚刚接触到“爬虫”这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语言编程,这次我选择了 ...
Python爬虫网页图片
一概述参考http://www.cnblogs.com/abelsu/p/4540711.html 弄了个Python捉取单一网页的图片,但是Python已经升到3+版本了.参考的已经失效,基本用 ...
从urllib和urllib2基础到一个简单抓取网页图片的小爬虫
urllib最常用的两大功能(个人理解urllib用于辅助urllib2) 1.urllib.urlopen() 2. urllib.urlencode() #适当的编码,可用于后面的post提交 ...
node爬虫 -- 网页图片
相信大家都听说过爬虫,我们也听说过Python是可以很方便地爬取网络上的图片,但是奈何本人不会Python,就只有通过 Node 来实践一下了. 接下来看我如何板砖 ! !!
Python3简单爬虫抓取网页图片
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...
Python并发编程-一个简单的爬虫
一个简单的爬虫 #网页状态码 #200 正常 #404 网页找不到 #502 504 import requests from multiprocessing import Pool def get( ...
Java简单爬虫(一)
简单的说,爬虫的意思就是根据url访问请求,然后对返回的数据进行提取,获取对自己有用的信息.然后我们可以将这些有用的信息保存到数据库或者保存到文件中.如果我们手工一个一个访问提取非常慢,所以我们需要编 ...
JAVA多线程超时加载当网页图片
先上图: 这一次没有采取正则匹配,而采取了最简单的java分割和替代方法进行筛选图片它能够筛选如下的图片并保存到指定的文件夹如: “http://xxxx/xxxx/xxx.jpg” 'http: ...
Python爬虫之网页图片抓取
一.引入这段时间一直在学习Python的东西,以前就听说Python爬虫多厉害,正好现在学到这里,跟着小甲鱼的Python视频写了一个爬虫程序,能实现简单的网页图片下载. 二.代码 __author ...

随机推荐

移动Web布局
移动Web开发之移动页面布局前言本文针对手机设备设计的页面,并非兼容全设备的响应式布局,常见的MobileWeb页面如H5页面.手机页面.WAP页.webview页面等等.在不同尺寸的手机设备上, ...
JavaScript基础入门知识
JavaScript三种使用方式 JavaScript代码屏蔽 JavaScript内容显示的位置 JavaScript中的错误及解决方法 1.语法错误:通过控制台可以检查并解决. 2.逻辑错误:通过 ...
solidity语言5
结构体 pragma solidity ^0.4.11; // 众筹合约 contract CrowdFunding { // 投资者 struct Funder { address addr; ui ...
liunx增强命令
查找命令 grep 格式:grep [option] pattern [file] 实例: ps -ef | grep sshd 查找指定 ssh 服务进程 ps -ef | grep sshd | ...
SQL Server 数据库修改后不允许保存
打开工具 - > 选项 -> 设计器,确认[阻止保存要求重新创建表的更改]项是否选中,如果选中,取消即可.
（二）selenium元素定位
selenium定位方法 Selenium提供了8种定位方式. id name class name tag name link text partial link text xpath css se ...
js常用函数汇总（不定期更新）
1.图片按比例压缩 function setImgSize(){ var outbox_w=imgbox.width(), outbox_h=imgbox.height(); imgbox.find( ...
python常用模块（一）
#什么是模块呢?就是用一大坨代码来完成一个功能的代码集合,是不是简单易懂 #类似于函数式编程和面向过程编程,函数式编程则完成一个功能,其他代码用来调用即可,提供了代码的重用性和代码间的耦合.而对于一个 ...
June 16th 2017 Week 24th Friday
Progress is the activity of today and the assurance of tomorrow. 进步是今天的活动,明天的保证. The best preparatio ...
webpack前言：前端模块系统的演进
前端开发和其他开发工作的主要区别,首先是前端是基于多语言.多层次的编码和组织工作,其次前端产品的交付是基于浏览器,这些资源是通过增量加载的方式运行到浏览器端,如何在开发环境组织好这些碎片化的代码和资源 ...

java简单web爬虫(网页图片)

java简单web爬虫(网页图片)的更多相关文章

随机推荐

热门专题