java捕获一个网站页面的全部图片

直接上代码：

package com.jeecg.util;

import java.io.BufferedReader;

import java.io.FileNotFoundException;

import java.io.FileOutputStream;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.net.HttpURLConnection;

import java.net.URL;

import java.net.URLConnection;

import java.util.ArrayList;

import java.util.List;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class CatchImage {

    // 地址

    private static final String URL = "http://news.163.com/";// 编码

    private static final String ECODING = "UTF-8";

    // 获取img标签正则

    private static final String IMGURL_REG = "<img src=(.*?)[^>]*?>";

    // 获取src路径的正则

    private static final String IMGSRC_REG = "http:.+(\\.jpeg|\\.jpg|\\.png|\\.gif)\"";

    public static void main(String[] args) throws Exception {

        CatchImage cm = new CatchImage();

        // 获得html文本内容

        String HTML = cm.getHTML(URL);

        // 获取图片标签

        List<String> imgUrl = cm.getImageUrl(HTML);

        // 获取图片src地址

        List<String> imgSrc = cm.getImageSrc(imgUrl);

        // 下载图片 cm.Download(imgSrc);

        cm.Download(imgSrc);

    }

    /**

     *

     *

     * 获取HTML内容

     *

     * @param url

     * @return

     * @throws Exception

     **/

    private String getHTML(String oldLink) throws Exception {

        StringBuffer sb = new StringBuffer();

        URL url = new URL(oldLink);

        HttpURLConnection connection = (HttpURLConnection) url.openConnection();

        connection.setRequestMethod("GET");

        connection.setConnectTimeout(2000);

        connection.setReadTimeout(2000);

        if (connection.getResponseCode() == 200) {

            InputStream inputStream = connection.getInputStream();

            BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream, "UTF-8"));

            String line = "";

            while ((line = reader.readLine()) != null) {

                sb.append(line);

            }

        }

        return sb.toString();

    }

    /**

     * 获取ImageUrl地址

     *

     * @param HTML

     *

     * @return

     */

    private List<String> getImageUrl(String HTML) {

        Matcher matcher = Pattern.compile(IMGURL_REG).matcher(HTML);

        List<String> listImgUrl = new ArrayList<String>();

        while (matcher.find()) {

            listImgUrl.add(matcher.group());

        }

        return listImgUrl;

    }

    /**

     * 获取ImageSrc地址

     *

     * @param listImageUrl

     *

     * @return

     **/

    private List<String> getImageSrc(List<String> listImageUrl) {

        List<String> listImgSrc = new ArrayList<String>();

        for (String image : listImageUrl) {

            Matcher matcher = Pattern.compile(IMGSRC_REG).matcher(image);

            while (matcher.find()) {

                listImgSrc.add(matcher.group().substring(0, matcher.group().length() - 1));

            }

        }

        return listImgSrc;

    }

    /**

     * 下载图片

     *

     * @param listImgSrc

     * @throws FileNotFoundException

     **/

    private void Download(List<String> listImgSrc) throws Exception {

        int count = 0;

        ArrayList al = new ArrayList();

        for (String urll : listImgSrc) {

            System.out.println(urll);

            Pattern p = Pattern.compile("\\.jpg|\\.png|\\.gif|\\.jpeg[^_]");

            Matcher m = p.matcher(urll);

            while (m.find()) {

                al.add(m.group());

            }

        }

        for (String url : listImgSrc) {

            System.out.println(url);

            URL uri = new URL(url);

            InputStream in = uri.openStream();

            FileOutputStream fo = new FileOutputStream("D:/imgPage/" + count + al.get(count));

            byte[] buf = new byte[1024];

            int length = 0;

            System.out.println("开始下载:" + url);

            while ((length = in.read(buf, 0, buf.length)) != -1) {

                fo.write(buf, 0, length);

            }

            in.close();

            fo.close();

            System.out.println("下载完成");

            count++;

        }

        System.out.println(count);

    }

}

java捕获一个网站页面的全部图片的更多相关文章

探究 | 如何捕获一个Activity页面上所有的点击行为
前言最近逛wanAndroid论坛,发现一个有趣的问题:如何捕获一个Activity页面上所有的点击行为. 一起研究下吧,不想看源码的小伙伴可以直接看文末总结- 准备工作先得罗列出页面上的一些点击 ...
使用Python开发轻量级的Web框架以及基于WSGI的服务器来实现一个网站页面
说明:该篇博客是博主一字一码编写的,实属不易,请尊重原创,谢谢大家! 目录一丶项目说明二丶数据准备三丶使用网络TCP开发一个基于WSGI协议的Web服务器四丶使用python3开发一个轻量级的 ...
js实现一个长页面中的图片懒加载即滚动到其位置才加载
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
我是怎么开发一个小型java在线学习网站的
2016/1/27 11:55:14 我是怎么开发一个小型java在线学习网站的一直想做一个自己的网站(非博客),但是又不知道做什么内容的好,又一次看到了w3schools,就萌发了开发一个在线ja ...
网站页面优化必然趋势—WebP 图片！
本文梗概:众所周知,浏览器可以通过 HTTP 请求的 Accpet 属性来指定接收的内容类型.依靠这个技术,可以在不修改任何 HTML/CSS 或者图片的情况下,向浏览器提供优化的图片,从而降低带宽 ...
如果将Joomla网站搜索结果显示到一个“干净”页面
有时候大家会发现Joomla网站自带的或者第三方的搜索功能时,搜索结果会显示在首页,和首页其它的模块如图片橱窗等显示在一起,非常混乱. 在这里教大家一个不需要修改代码的小技巧来解决这个问题,使搜索结果 ...
网站页面打开浏览器table中显示图片
就类似博客园这种:
测试网站页面网速的一个简单Python脚本
无聊之余,下面分享一个Python小脚本:测试网站页面访问速度 [root@huanqiu ~]# vim pywww.py #!/usr/bin/python # coding: UTF-8 imp ...
蜘蛛页面获取一个网站的全部url 乐观代码
蜘蛛页面 from selenium import webdriver import time import random from bs4 import * import pymysql h, pt ...

随机推荐

HDU-4544 湫湫系列故事——消灭兔子 (贪心+优先队列)
题目思路将兔子的血量从大到小排列,将箭的属性写在类中(结构体也成),排序按照伤害从大到小排列,若有相等的则按价格从小到大排. 代码 #include<bits/stdc++.h> usi ...
mysql数据库总结。
mysql MySQL语法MySQL采用结构化查询语言SQL (Structured Query Language)语言来操作数据库SQL语句必须以 ; 结束SQL语句分类DDL(数据定义语言): c ...
Python获取当前脚本文件夹(Script)的绝对路径
Python获取当前脚本绝对路径 Python脚本有一个毛病,当使用相对路径时,被另一个不同目录下的py文件中导入时,会报找不到对应文件的问题.感觉是当前工作目录变成了导入py文件当前目录.如果你有配 ...
项目Alpha冲刺——集合
作业描述课程: 软件工程1916|W(福州大学) 作业要求: 项目Alpha冲刺(团队) 团队名称: 火鸡堂作业目标: 完成项目Alpha冲刺团队信息队名:火鸡堂队员学号队员姓名博客地址 ...
[USACO08OCT]：打井Watering Hole（MST）
题意:有N个牧场,每个牧场修水井花费Wi,连接牧场花费Pij,问最小花费,使得每个牧场要么有水井,要么和有水井的牧场有通道. 思路:加一个格外的节点O,连接O表示修井,边权是修井的费用. 那么 ...
Win如何查看某个端口被谁占用并停掉
第一步在我们的电脑上按win+R键打开运行,输入cmd, 第二步进去命令提示符之后,输入“netstat -ano”,按回车键,查出所有端口,如下图所示: 第三步如果我们想找8089端口,输入nets ...
LeetCode 1000. Minimum Cost to Merge Stones
原题链接在这里:https://leetcode.com/problems/minimum-cost-to-merge-stones/ 题目: There are N piles of stones ...
BZOJ 4477: [Jsoi2015]字符串树可持久化trie树
这个是真——可持久化字典树..... code: #include <bits/stdc++.h> #define N 100006 #define setIO(s) freopen(s& ...
pgloader 学习（五）pgloader 参考手册
pgloader将各种来源的数据加载到PostgreSQL中.它可以转换动态读取的数据,并在加载前后提交原始SQL. 它使用COPY PostgreSQL协议将数据流式传输到服务器,并通过填充一对re ...
HTML5 Geolocation（地理定位）
一.背景在HTML规范中,增加了获取用户地理信息的API,这样使得可以基于用户位置开发互联网应用,即基于位置服务鉴于该特性可能侵犯用户的隐私,除非用户同意,否则用户位置信息是不可用的. Inter ...

java捕获一个网站页面的全部图片

java捕获一个网站页面的全部图片的更多相关文章

随机推荐

热门专题