本例用到了多线程、时间函数、网络流、文件读写、正则表达式(在读取html内容response时,最好不要用正则表达式来抓捕html文本内容里的特征,因为服务器返回的多个页面的文本内容不一定使用相同的模式),是一个综合性的实例。

package javatest;

import java.io.BufferedReader;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.text.SimpleDateFormat;
import java.util.ArrayList;
import java.util.Date;
import java.util.regex.Matcher;
import java.util.regex.Pattern; class urlTest
{
public static void main(String[] args) throws IOException
{
//String url = "http://www.ik6.com/meinv/10000/index.html";
String dir = "d:\\result\\201601282"; int base = 40624;
// 多线程方法,从网上下载多个图片并保存
ArrayList<Thread> threads = new ArrayList<Thread>();
urlTest test=new urlTest(); int threadCount=1;//开5个线程,用于下载
int themePerThread=1;
Date start=new Date();
System.out.println("threads start..");
for (int i = 0; i < threadCount; i++)
{
Thread t = new Thread(test.new workerThread(dir, base, themePerThread));
threads.add(t);
t.start();
base+=themePerThread;
}
for (Thread t : threads)
{
try
{
t.join();//让主线程等待此子线程执行完毕
}
catch (InterruptedException e)
{
e.printStackTrace();
}
}
System.out.println("threads complete..");
Date end=new Date();
//计算总耗时
long diff = end.getTime() - start.getTime();
String info=String.format("it takes %f seconds to run.", diff / 1000.00);
System.out.println(info); //单线程方法
// for (int themeCount = 0; themeCount < 200; themeCount++)
// {
// for (int pageIndex = 1; pageIndex <= 20; pageIndex++)
// {
// if (pageIndex==1)
// {url = String.format(
// "http://www.ik6.com/meinv/%d/index.html", base
// + themeCount);
// }
// else
// {
// url = String.format(
// "http://www.ik6.com/meinv/%d/index_%d.html", base
// + themeCount, pageIndex);
// }
//
// String data = GetResponseText(url);
// if (!IsContentPage(data))
// break;
// System.out.println(url);
// ArrayList<String> imgUrls = GetImgUrls(data);
// for (String imgUrl : imgUrls)
// {
// String imageSavedPath = String.format("%s\\%d_%d.jpg", dir,base+
// themeCount,pageIndex);
// RetrieveImg2(imgUrl, imageSavedPath);
// }
//
// }
// }
} public class workerThread implements Runnable
{ String dir = null;
int base = 0;
int themeCount = 0;
int totalPage=0;
int totalImg=0; public workerThread(String dir, int base, int themeCount)
{
this.dir = dir;
this.base = base;
this.themeCount = themeCount;
} public void run()
{
String url=null;
int pageNo=0;
for (int themeIndex = 0; themeIndex < themeCount; themeIndex++)
{
for (int pageIndex = 1; pageIndex <= 50; pageIndex++)
{
pageNo=base+ themeIndex;
if (pageIndex == 1)
{
url = String.format("http://www.ik6.com/meinv/%d/index.html", pageNo);
}
else
{
url = String.format(
"http://www.ik6.com/meinv/%d/index_%d.html",
pageNo, pageIndex);
} String data = GetResponseText(url);
if (!IsContentPage(data))
break; ArrayList<String> imgUrls = GetImgUrls(data);
for (String imgUrl : imgUrls)
{
String imageSavedPath = String.format("%s\\%d_%d.jpg",
dir, pageNo, pageIndex);
RetrieveImg2(imgUrl, imageSavedPath);
} }
} } } //日期格式化
public static String GetTimeString()
{
Date dt = new Date();
SimpleDateFormat df = new SimpleDateFormat("yyyyMMddHHmmss");
String s = df.format(dt);
return s;
}
//通过特征判断
public static boolean IsContentPage(String pageContent)
{
return pageContent.indexOf("<center>") != -1;
} public static ArrayList<String> GetImgUrls(String srcStr)
{
// 利用正则表达式,读取页面中所有图片的url
// Pattern p1 = Pattern.compile("<center.+\n?.+\n?</center>");
// Pattern p2 = Pattern.compile("lazysrc=\"http\\:.+\\.jpg\"");
// Matcher m = p2.matcher(srcStr);
// ArrayList<String> imgUrls = new ArrayList<String>();
// while (m.find())
// {
// String match = m.group();
// imgUrls.add(match.substring(match.indexOf("\"")+1,match.lastIndexOf("\"")));
// }
// return imgUrls; // 仅读取主题图片的url,为何不能匹配center?
// Pattern p1 = Pattern.compile("<center.+\n*.+\n*</center>");
// Pattern p2 = Pattern.compile("lazysrc=\"http\\:.+\\.jpg\"");
// Matcher m = p1.matcher(srcStr);
// ArrayList<String> imgUrls = new ArrayList<String>();
// if (m.find())
// {
// String matchCenter = m.group();
// Matcher m2 = p2.matcher(matchCenter);
// while (m2.find())
// {
// String matchImage = m2.group();
// imgUrls.add(matchImage.substring(matchImage.indexOf("\"") + 1,
// matchImage.lastIndexOf("\"")));
// }
// }
// return imgUrls; // 用字符串的indexOf方法找出所有图片的url
srcStr = srcStr.substring(srcStr.indexOf("<center"),
srcStr.indexOf("</center>"));
// Pattern p2 = Pattern.compile("lazysrc=http\\:.+\\.jpg");
srcStr = srcStr.substring(srcStr.indexOf("src="));
srcStr = srcStr.substring(srcStr.indexOf("http"),
srcStr.indexOf(".jpg") + 4);
ArrayList<String> imgUrls = new ArrayList<String>();
imgUrls.add(srcStr);
return imgUrls; } //通过url获取html页面
public static String GetResponseText(String url)
{
String response = null;
try
{
URL _url = new URL(url);
HttpURLConnection urlcon = (HttpURLConnection) _url
.openConnection();
// 获取连接
InputStream is = urlcon.getInputStream();
BufferedReader buffer = new BufferedReader(new InputStreamReader(
is, "utf-8"));
StringBuffer sb = new StringBuffer();
String line = null;
while ((line = buffer.readLine()) != null)
{
sb.append(line).append('\n');
// System.out.println(l);
}
response = sb.toString();
}
catch (Exception e)
{
e.printStackTrace();
} return response;
} //通过图片的url,获取图片并保存在本地.注意:此法有缺点
public static void RetrieveImg(String imgURL, String savepath)
{
try
{
File file = new File(savepath);
if (file.exists())
{
return;
}
else
{
file.createNewFile();
URL _url = new URL(imgURL);
HttpURLConnection urlcon = (HttpURLConnection) _url
.openConnection();
// urlcon.setRequestMethod("GET");
// 超时响应时间为5秒
// urlcon.setConnectTimeout(3 * 1000);
// 获取连接
InputStream is = urlcon.getInputStream();
byte[] buffer = new byte[1024];
FileOutputStream out = new FileOutputStream(file);
while (is.read(buffer) != -1)
;
out.write(buffer);// 为何不行
is.close();
out.close();
}
}
catch (Exception e)
{
e.printStackTrace();
}
} //通过图片的url,获取图片并保存在本地
public static void RetrieveImg2(String imgURL, String savepath)
{
try
{
File file = new File(savepath);
if (file.exists())
{
return;
}
else
{
file.createNewFile();
URL _url = new URL(imgURL);
HttpURLConnection conn = (HttpURLConnection) _url
.openConnection();
conn.setRequestMethod("GET");
// 超时响应时间为5秒
conn.setConnectTimeout(5 * 1000);
// 通过输入流获取图片数据
InputStream inStream = conn.getInputStream();
byte[] data = readInputStream(inStream);
// 写入到新文件当中
FileOutputStream out = new FileOutputStream(file);
out.write(data);
out.close();
}
}
catch (Exception e)
{
e.printStackTrace();
}
} //将输入流的内容写入内存保存起来,以便稍后写入到文件当中
public static byte[] readInputStream(InputStream inStream) throws Exception
{
ByteArrayOutputStream outStream = new ByteArrayOutputStream();
byte[] buffer = new byte[1024];
int len = 0;// 关键,否则图片不完整,因为不知道写入多少
while ((len = inStream.read(buffer)) != -1)
{
outStream.write(buffer, 0, len);
}
inStream.close();
// 把outStream里的数据写入内存
return outStream.toByteArray();
}
}

Java--多线程读取网络图片并保存在本地的更多相关文章

  1. Python配合BeautifulSoup读取网络图片并保存在本地

    本例为Python配合BeautifulSoup读取网络图片,并保存在本地. BeautifulSoup可代替正则表达式,更好地解析Html文本,获取其中的指定内容,如Tag.Property等 # ...

  2. JAVA 通过url下载图片保存到本地

    //java 通过url下载图片保存到本地 public static void download(String urlString, int i) throws Exception { // 构造U ...

  3. PHP获取网络图片并保存在本地目录

    PHP获取网络图片并保存在本地目录思路: 代码如下: function file_exists_S3($url) { $state = @file_get_contents($url,0,null,0 ...

  4. Python3 获取网络图片并且保存到本地

    Python3 获取网络图片并且保存到本地 import requests from bs4 import BeautifulSoup from urllib import request impor ...

  5. Java多线程读取大文件

    前言 今天是五一假期第一天,按理应该是快乐玩耍的日子,但是作为一个北漂到京师的开发人员,实在难想出去那玩耍.好玩的地方比较远,近处又感觉没意思.于是乎,闲着写篇文章,总结下昨天写的程序吧. 昨天下午朋 ...

  6. java将base64解析图片保存到本地。

    将base64解析图片保存到本地的两个方法 /** * base64转图片 * @param base64str base64码 * @param savePath 图片路径 * @return */ ...

  7. Java从网络读取图片并保存至本地

    package cn.test.net; import java.io.File; import java.io.FileOutputStream; import java.io.InputStrea ...

  8. JAVA获取网络图片并保存到本地(随机图片接口)

    import java.io.ByteArrayOutputStream; import java.io.File; import java.io.FileOutputStream; import j ...

  9. Java 多线程读取文件并统计词频 实例 出神入化的《ThreadPoolExecutor》

    重在展示多线程ThreadPoolExecutor的使用,和线程同步器CountDownLatch,以及相关CAS的原子操作和线程安全的Map/队列. ThreadPool主线程 1 import j ...

随机推荐

  1. jQuery使用之(四)处理页面的表单元素

    表单是一个特殊的页面元素,value的值是最受关注的,jQuery提供了强大的val()方法来处理相关的操作. 1.获取表单元素的值. 直接调用val()方法时可以获取选择器的 中的第一个元素的val ...

  2. HDU 5115 Dire Wolf 区间dp

    题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=5115 Dire Wolf Time Limit: 5000/5000 MS (Java/Others ...

  3. 拦路虎:jQuery

    1.   color设置无效的问题! $("#subscribe").hover(function(){ var $this = $("#subscribe .subsc ...

  4. JSP中<base href="<%=basePath%>">的作用

    来源于:http://fanshuyao.iteye.com/blog/2097229 首先了解是什么是<base href=""> <base href=&qu ...

  5. log4j:WARN Please initialize the log4j system properly.解决

    log4j:WARN No appenders could be found for logger (org.springframework.context.support.ClassPathXmlA ...

  6. zabbix_监控_邮件预警

      一.解决的问题:当触发器满足条件被触发时,发邮件进行通知   二.软件及方案 使用外部邮箱发送邮件 使用mailx发送邮件,版本为12.4 zabbix版本为2.2.2 zabbix中使用执行脚本 ...

  7. JS_工厂模式

    <!DOCTYPE html> <html> <head> <title></title> </head> <body&g ...

  8. json2.js的初步学习与了解

    json2.js的初步学习与了解,想要学习json的朋友可以参考下. json2.js的初步学习与了解 1.)该js的下载地址是:http://www.json.org/json2.js 2.)在页面 ...

  9. 【前端】less学习

    Less 是什么? Less is more,than CSS. Less就是搞笑高效编写和维护CSS的一种语法. 1.下载Koala考拉,一款国人编写的less开发器. 2.可以用Sublime T ...

  10. 【poj2186】 Popular Cows

    http://poj.org/problem?id=2186 (题目链接) 题意 给出一个n个点m条边的有向图,求其中没有出度强连通分量所包含的点有几个 Solution 其实这道题的题解已经在“题意 ...