Java--多线程读取网络图片并保存在本地

本例用到了多线程、时间函数、网络流、文件读写、正则表达式（在读取html内容response时，最好不要用正则表达式来抓捕html文本内容里的特征，因为服务器返回的多个页面的文本内容不一定使用相同的模式），是一个综合性的实例。

package javatest;

import java.io.BufferedReader;

import java.io.ByteArrayOutputStream;

import java.io.File;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.net.HttpURLConnection;

import java.net.URL;

import java.text.SimpleDateFormat;

import java.util.ArrayList;

import java.util.Date;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

class urlTest

{

    public static void main(String[] args) throws IOException

    {

        //String url = "http://www.ik6.com/meinv/10000/index.html";

        String dir = "d:\\result\\201601282";

        int base = 40624;

        // 多线程方法，从网上下载多个图片并保存

        ArrayList<Thread> threads = new ArrayList<Thread>();

        urlTest test=new urlTest();

        int threadCount=1;//开5个线程，用于下载

        int themePerThread=1;

        Date start=new Date();

        System.out.println("threads start..");

        for (int i = 0; i < threadCount; i++)

        {

            Thread t = new Thread(test.new workerThread(dir, base, themePerThread));

            threads.add(t);

            t.start();

            base+=themePerThread;

        }

        for (Thread t : threads)

        {

            try

            {

                t.join();//让主线程等待此子线程执行完毕

            }

            catch (InterruptedException e)

            {

                e.printStackTrace();

            }

        }

        System.out.println("threads complete..");

        Date end=new Date();

        //计算总耗时

        long diff = end.getTime() - start.getTime();

        String info=String.format("it takes %f seconds to run.", diff / 1000.00);

        System.out.println(info);

        //单线程方法

//         for (int themeCount = 0; themeCount < 200; themeCount++)

//         {

//         for (int pageIndex = 1; pageIndex <= 20; pageIndex++)

//         {

//         if (pageIndex==1)

//         {url = String.format(

//         "http://www.ik6.com/meinv/%d/index.html", base

//         + themeCount);

//         }

//         else

//         {

//         url = String.format(

//         "http://www.ik6.com/meinv/%d/index_%d.html", base

//         + themeCount, pageIndex);

//         }

//

//         String data = GetResponseText(url);

//         if (!IsContentPage(data))

//         break;

//         System.out.println(url);

//         ArrayList<String> imgUrls = GetImgUrls(data);

//         for (String imgUrl : imgUrls)

//         {

//         String imageSavedPath = String.format("%s\\%d_%d.jpg", dir,base+

//         themeCount,pageIndex);

//         RetrieveImg2(imgUrl, imageSavedPath);

//         }

//

//         }

//         }

    }

    public class workerThread implements Runnable

    {

        String dir = null;

        int base = 0;

        int themeCount = 0;

        int totalPage=0;

        int totalImg=0;

        public workerThread(String dir, int base, int themeCount)

        {

            this.dir = dir;

            this.base = base;

            this.themeCount = themeCount;

        }

        public void run()

        {

            String url=null;

            int pageNo=0;

            for (int themeIndex = 0; themeIndex < themeCount; themeIndex++)

            {

                for (int pageIndex = 1; pageIndex <= 50; pageIndex++)

                {

                    pageNo=base+ themeIndex;

                    if (pageIndex == 1)

                    {

                        url = String.format("http://www.ik6.com/meinv/%d/index.html", pageNo);

                    }

                    else

                    {

                        url = String.format(

                                "http://www.ik6.com/meinv/%d/index_%d.html",

                                pageNo, pageIndex);

                    }

                    String data = GetResponseText(url);

                    if (!IsContentPage(data))

                        break;

                    ArrayList<String> imgUrls = GetImgUrls(data);

                    for (String imgUrl : imgUrls)

                    {

                        String imageSavedPath = String.format("%s\\%d_%d.jpg",

                                dir, pageNo, pageIndex);

                        RetrieveImg2(imgUrl, imageSavedPath);

                    }

                }

            }

        }

    }

    //日期格式化

    public static String GetTimeString()

    {

        Date dt = new Date();

        SimpleDateFormat df = new SimpleDateFormat("yyyyMMddHHmmss");

        String s = df.format(dt);

        return s;

    }

    //通过特征判断

    public static boolean IsContentPage(String pageContent)

    {

        return pageContent.indexOf("<center>") != -1;

    }

    public static ArrayList<String> GetImgUrls(String srcStr)

    {

        // 利用正则表达式，读取页面中所有图片的url

        // Pattern p1 = Pattern.compile("<center.+\n?.+\n?</center>");

        // Pattern p2 = Pattern.compile("lazysrc=\"http\\:.+\\.jpg\"");

        // Matcher m = p2.matcher(srcStr);

        // ArrayList<String> imgUrls = new ArrayList<String>();

        // while (m.find())

        // {

        // String match = m.group();

        // imgUrls.add(match.substring(match.indexOf("\"")+1,match.lastIndexOf("\"")));

        // }

        // return imgUrls;

        // 仅读取主题图片的url，为何不能匹配center?

        // Pattern p1 = Pattern.compile("<center.+\n*.+\n*</center>");

        // Pattern p2 = Pattern.compile("lazysrc=\"http\\:.+\\.jpg\"");

        // Matcher m = p1.matcher(srcStr);

        // ArrayList<String> imgUrls = new ArrayList<String>();

        // if (m.find())

        // {

        // String matchCenter = m.group();

        // Matcher m2 = p2.matcher(matchCenter);

        // while (m2.find())

        // {

        // String matchImage = m2.group();

        // imgUrls.add(matchImage.substring(matchImage.indexOf("\"") + 1,

        // matchImage.lastIndexOf("\"")));

        // }

        // }

        // return imgUrls;

        // 用字符串的indexOf方法找出所有图片的url

        srcStr = srcStr.substring(srcStr.indexOf("<center"),

                srcStr.indexOf("</center>"));

        // Pattern p2 = Pattern.compile("lazysrc=http\\:.+\\.jpg");

        srcStr = srcStr.substring(srcStr.indexOf("src="));

        srcStr = srcStr.substring(srcStr.indexOf("http"),

                srcStr.indexOf(".jpg") + 4);

        ArrayList<String> imgUrls = new ArrayList<String>();

        imgUrls.add(srcStr);

        return imgUrls;

    }

    //通过url获取html页面

    public static String GetResponseText(String url)

    {

        String response = null;

        try

        {

            URL _url = new URL(url);

            HttpURLConnection urlcon = (HttpURLConnection) _url

                    .openConnection();

            // 获取连接

            InputStream is = urlcon.getInputStream();

            BufferedReader buffer = new BufferedReader(new InputStreamReader(

                    is, "utf-8"));

            StringBuffer sb = new StringBuffer();

            String line = null;

            while ((line = buffer.readLine()) != null)

            {

                sb.append(line).append('\n');

                // System.out.println(l);

            }

            response = sb.toString();

        }

        catch (Exception e)

        {

            e.printStackTrace();

        }

        return response;

    }

    //通过图片的url，获取图片并保存在本地.注意：此法有缺点

    public static void RetrieveImg(String imgURL, String savepath)

    {

        try

        {

            File file = new File(savepath);

            if (file.exists())

            {

                return;

            }

            else

            {

                file.createNewFile();

                URL _url = new URL(imgURL);

                HttpURLConnection urlcon = (HttpURLConnection) _url

                        .openConnection();

                // urlcon.setRequestMethod("GET");

                // 超时响应时间为5秒

                // urlcon.setConnectTimeout(3 * 1000);

                // 获取连接

                InputStream is = urlcon.getInputStream();

                byte[] buffer = new byte[1024];

                FileOutputStream out = new FileOutputStream(file);

                while (is.read(buffer) != -1)

                    ;

                out.write(buffer);// 为何不行

                is.close();

                out.close();

            }

        }

        catch (Exception e)

        {

            e.printStackTrace();

        }

    }

    //通过图片的url，获取图片并保存在本地

    public static void RetrieveImg2(String imgURL, String savepath)

    {

        try

        {

            File file = new File(savepath);

            if (file.exists())

            {

                return;

            }

            else

            {

                file.createNewFile();

                URL _url = new URL(imgURL);

                HttpURLConnection conn = (HttpURLConnection) _url

                        .openConnection();

                conn.setRequestMethod("GET");

                // 超时响应时间为5秒

                conn.setConnectTimeout(5 * 1000);

                // 通过输入流获取图片数据

                InputStream inStream = conn.getInputStream();

                byte[] data = readInputStream(inStream);

                // 写入到新文件当中

                FileOutputStream out = new FileOutputStream(file);

                out.write(data);

                out.close();

            }

        }

        catch (Exception e)

        {

            e.printStackTrace();

        }

    }

    //将输入流的内容写入内存保存起来，以便稍后写入到文件当中

    public static byte[] readInputStream(InputStream inStream) throws Exception

    {

        ByteArrayOutputStream outStream = new ByteArrayOutputStream();

        byte[] buffer = new byte[1024];

        int len = 0;// 关键，否则图片不完整，因为不知道写入多少

        while ((len = inStream.read(buffer)) != -1)

        {

            outStream.write(buffer, 0, len);

        }

        inStream.close();

        // 把outStream里的数据写入内存

        return outStream.toByteArray();

    }

}

Java--多线程读取网络图片并保存在本地的更多相关文章

Python配合BeautifulSoup读取网络图片并保存在本地
本例为Python配合BeautifulSoup读取网络图片,并保存在本地. BeautifulSoup可代替正则表达式,更好地解析Html文本,获取其中的指定内容,如Tag.Property等 # ...
JAVA 通过url下载图片保存到本地
//java 通过url下载图片保存到本地 public static void download(String urlString, int i) throws Exception { // 构造U ...
PHP获取网络图片并保存在本地目录
PHP获取网络图片并保存在本地目录思路: 代码如下: function file_exists_S3($url) { $state = @file_get_contents($url,0,null,0 ...
Python3 获取网络图片并且保存到本地
Python3 获取网络图片并且保存到本地 import requests from bs4 import BeautifulSoup from urllib import request impor ...
Java多线程读取大文件
前言今天是五一假期第一天,按理应该是快乐玩耍的日子,但是作为一个北漂到京师的开发人员,实在难想出去那玩耍.好玩的地方比较远,近处又感觉没意思.于是乎,闲着写篇文章,总结下昨天写的程序吧. 昨天下午朋 ...
java将base64解析图片保存到本地。
将base64解析图片保存到本地的两个方法 /** * base64转图片 * @param base64str base64码 * @param savePath 图片路径 * @return */ ...
Java从网络读取图片并保存至本地
package cn.test.net; import java.io.File; import java.io.FileOutputStream; import java.io.InputStrea ...
JAVA获取网络图片并保存到本地（随机图片接口）
import java.io.ByteArrayOutputStream; import java.io.File; import java.io.FileOutputStream; import j ...
Java 多线程读取文件并统计词频实例出神入化的《ThreadPoolExecutor》
重在展示多线程ThreadPoolExecutor的使用,和线程同步器CountDownLatch,以及相关CAS的原子操作和线程安全的Map/队列. ThreadPool主线程 1 import j ...

随机推荐

【Javascript】—— 1 方法function的高级特性
本篇仅仅对于function作简单的讲解,在javascript中function不仅仅是方法,它其实是一个变量,因此拥有自己的属性,并且可以当做参数传递给其他的方法. 那么传统的方法,按照java的 ...
javascript-XMLHttpRequest
JS方法: var xmlhttp;//一定注意是写在外面的全局变量,我调了一个上午才发现. function verify(){ //使用dom方式获取文本框中的值 var userName=doc ...
history命令显示出详细时间
文章摘自: http://blog.csdn.net/lixiaohuiok111/article/details/34428161 http://blog.csdn.net/lixiaohuiok1 ...
从Yii2的Request看其CSRF防范策略
用ajax请求还是用命令行CURL请求总是会得到 http400:Bad Request的错误, 而如果用Web网页方式GET访问(去除verbFilter的POST限制),是正常的,是CSRF验证的 ...
BZOJ-4010 菜肴制作贪心+堆+（拓扑图拓扑序）
无意做到...char哥还中途强势插入干我...然后据他所言,看了一会题,一转头,我爆了正解....可怕 4010: [HNOI2015]菜肴制作 Time Limit: 5 Sec Memory L ...
BZOJ-1934 Vote 善意的投票最大流+建图
1934: [Shoi2007]Vote 善意的投票 Time Limit: 1 Sec Memory Limit: 64 MB Submit: 1551 Solved: 951 [Submit][S ...
用WinRAR进行安装包的制作
简单的绿色的安装包制作工具,如果不想用复杂且庞大的vs提供的制作工具,或许这个绿色解压安装包是个不错的选择. 下面我收集了一些制作的教程(百度经验的文章)和一些常用到的命令行: WinRAR自解压安装 ...
转-Android中自动连接到指定SSID的Wi-Fi
最近在做一个项目,其中涉及到一块“自动连接已存在的wifi热点”的功能,在网上查阅了大量资料,五花八门,但其中一些说的很简单,即不能实现傻瓜式的拿来就用,有些说的很详细,但其中不乏些许错误造成功能无法 ...
IOS基础之 (十二) 类的扩展
对OC类的扩展总结如下,共有4个: 1.子类 subClass 作用:可以使用类的继承来增添父类的变量和方法. 写法:在.h文件中 @interface Student : Person 2.分类 C ...
Omnet++ 4.0 入门实例教程
http://blog.sina.com.cn/s/blog_8a2bb17d01018npf.html 在网上找到的一个讲解omnet++的实例, 是4.0下面实现的. 我在4.2上试了试,可以用. ...

Java--多线程读取网络图片并保存在本地

Java--多线程读取网络图片并保存在本地的更多相关文章

随机推荐

热门专题