java 抓取网页图片

import java.io.File;

import java.io.FileOutputStream;

import java.io.InputStream;

import java.io.OutputStream;

import java.net.HttpURLConnection;

import java.net.URL;

import java.net.URLConnection;

import java.text.SimpleDateFormat;

import java.util.ArrayList;

import java.util.Iterator;

import java.util.List;

import java.util.UUID;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

/***

 * java抓取网络图片

 *

 * @author ITWANG

 *

 */

public class CatchImage

{

	// 地址

	private static final String URL = "http://www.4493.com/";

	// 编码

	private static final String ECODING = "UTF-8";

	// 获取img标签正则

	private static final String IMGURL_REG = "<img.*src=(.*?)[^>]*?>";

	// 获取src路径的正则

	private static final String IMGSRC_REG = "http:\"?(.*?)(\"|>|\\s+)";

	private static final String IMGDSRC_REG = "[\"\'](http.+\\.(jpg|JPG|png|PNG|gif|GIF))[\"\']";

	private static final String[] picstuffix = { "jpg", "JPG", "gif", "GIF", "png", "PNG" };

	private static List<String> pList = new ArrayList<>();

	public static void main(String[] args) throws Exception

	{

		CatchImage cm = new CatchImage();

		// 获得html文本内容

		String HTML = cm.getHTML(URL);

		// System.out.println(HTML);

		// 获取图片标签

		List<String> imgUrl = cm.getImageUrl(HTML);

		 // 获取图片src地址

		 List<String> imgSrc = cm.getImageSrc(imgUrl);

		 // 下载图片

		 cm.Download(imgSrc, "E:\\Imagesave"+saveDiff());

//		cm.getImageSrc(HTML);

		// cm.ThreadDownload(imgSrc, "E:\\Imagesave"+saveDiff() , 6);

//		cm.TOThreadDownload(pList, "E:\\Imagesave" + saveDiff(), 6, 6000);

	}

	/***

	 * 获取HTML内容

	 *

	 * @param url

	 * @return

	 * @throws Exception

	 */

	private String getHTML(String url) throws Exception

	{

		URL uri = new URL(url);

		URLConnection connection = uri.openConnection();

		InputStream in = connection.getInputStream();

		byte[] buf = new byte[1024];

		int length = 0;

		StringBuffer sb = new StringBuffer();

		while ((length = in.read(buf, 0, buf.length)) > 0)

		{

			sb.append(new String(buf, ECODING));

		}

		in.close();

		return sb.toString();

	}

	/***

	 * 获取ImageUrl地址

	 *

	 * @param HTML

	 * @return

	 */

	private List<String> getImageUrl(String HTML)

	{

		Matcher matcher = Pattern.compile(IMGURL_REG).matcher(HTML);

		List<String> listImgUrl = new ArrayList<String>();

		while (matcher.find())

		{

			listImgUrl.add(matcher.group());

		}

		return listImgUrl;

	}

	/***

	 * 获取ImageSrc地址

	 *

	 * @param listImageUrl

	 * @return

	 */

	private List<String> getImageSrc(List<String> listImageUrl)

	{

		List<String> listImgSrc = new ArrayList<String>();

		for (String image : listImageUrl)

		{

			Matcher matcher = Pattern.compile(IMGSRC_REG).matcher(image);

			while (matcher.find())

			{

				listImgSrc.add(matcher.group().substring(0, matcher.group().length() - 1));

			}

		}

		return listImgSrc;

	}

	/**

	 * 获取html里面的图片

	 *

	 * @param html

	 * @return

	 */

	private void getImageSrc(String html)

	{

		Pattern p = Pattern.compile(IMGDSRC_REG);

		Matcher m = p.matcher(html);

		while (m.find())

		{

			getpicsrc(m.group(1));

		}

	}

	/**

	 * 截取字符串里面的图片

	 *

	 * @param src

	 * @return

	 */

	public void getpicsrc(String src)

	{

		if (src.contains("http:"))

		{

			String[] app = src.split("http:");

			for (int i = 0; i < app.length; i++)

			{

				if (!isBlank(app[i]))

				{

					for (int j = 0; j < picstuffix.length; j++)

					{

						if (app[i].contains("." + picstuffix[j]))

						{

							int inum = app[i].indexOf(picstuffix[j]);

							String url = "http:" + app[i].substring(0, inum) + picstuffix[j];

							pList.add(url);

						}

					}

				}

			}

		}

	}

	/**

	 * 去处重复元素

	 *

	 * @param result

	 * @return

	 */

	public static List<String> RemoveRepeated(List<String> result)

	{

		List<String> tmpArr = new ArrayList<String>();

		for (int i = 0; i < result.size(); i++)

		{

			if (!tmpArr.contains(result.get(i)))

			{

				tmpArr.add((String) result.get(i));

			}

		}

		return tmpArr;

	}

	/**

	 * 判断非空

	 *

	 * @param cs

	 * @return

	 */

	public static boolean isBlank(CharSequence cs)

	{

		int strLen;

		if (cs == null || (strLen = cs.length()) == 0)

		{

			return true;

		}

		for (int i = 0; i < strLen; i++)

		{

			if (Character.isWhitespace(cs.charAt(i)) == false)

			{

				return false;

			}

		}

		return true;

	}

	/***

	 * 单线程下载图片

	 *

	 * @param listImgSrc

	 */

	private void Download(List<String> listImgSrc, String savedir)

	{

		for (String url : listImgSrc)

		{

			try

			{

				String imageName = url.substring(url.lastIndexOf("/") + 1, url.length());

				URL uri = new URL(url);

				InputStream in = uri.openStream();

				FileOutputStream fo = new FileOutputStream(new File(savedir + imageName));

				byte[] buf = new byte[1024];

				int length = 0;

				while ((length = in.read(buf, 0, buf.length)) != -1)

				{

					fo.write(buf, 0, length);

				}

				in.close();

				fo.close();

				System.out.println("*^_^*");

			} catch (Exception e)

			{

				System.out.println("-_-!");

			}

		}

	}

	/**

	 * 多线程下载图片

	 *

	 * @param listImgSrc

	 * @param savedir

	 * @param tnum

	 */

	private void ThreadDownload(List<String> listImgSrc, String savedir, int tnum)

	{

		for (int i = 0; i < listImgSrc.size(); i += tnum)

		{

			new DThread(savedir, tnum, listImgSrc, i).start();

		}

	}

	/**

	 *

	 * 2014-4-3上午10:52:38 Describe: 多线程下载照片

	 *

	 * @author: ITWANG

	 */

	class DThread extends Thread

	{

		private String savedir = null;

		private int tnum;

		private List<String> listImgSrc;

		private int bunm;

		public DThread(String savedir, int tnum, List<String> listImgSrc, int bnum)

		{

			this.savedir = savedir;

			this.tnum = tnum;

			this.listImgSrc = listImgSrc;

			this.bunm = bnum;

		}

		@Override

		public void run()

		{

			for (int i = 0; i < tnum; i++)

			{

				try

				{

					String url = listImgSrc.get(bunm + i);

					String sps = url.substring(url.lastIndexOf("."), url.length());

					String imageName = UUID.randomUUID().toString() + sps;

					URL uri = new URL(url);

					InputStream in = uri.openStream();

					System.out.println(savedir + imageName);

					FileOutputStream fo = new FileOutputStream(new File(savedir + imageName));

					byte[] buf = new byte[1024];

					int length = 0;

					while ((length = in.read(buf, 0, buf.length)) != -1)

					{

						fo.write(buf, 0, length);

					}

					in.close();

					fo.close();

					System.out.println("*^_^*");

				} catch (Exception e)

				{

					System.out.println("-_-!");

				}

			}

		}

	}

	/**

	 * 多线程超时下载

	 *

	 * @param listImgSrc

	 * @param savedir

	 * @param tnum

	 * @param timeout

	 */

	private void TOThreadDownload(List<String> listImgSrc, String savedir, int tnum, int timeout)

	{

		for (int i = 0; i < listImgSrc.size(); i += tnum)

		{

			new TODThread(savedir, tnum, listImgSrc, i, timeout).start();

		}

	}

	/**

	 *

	 * 2014-4-3上午10:52:07 Describe: 超时方式下载照片线程

	 *

	 * @author: ITWANG

	 */

	class TODThread extends Thread

	{

		private String savedir = null;

		private int tnum;

		private List<String> listImgSrc;

		private int bunm;

		private int timeout = 3000;

		public TODThread(String savedir, int tnum, List<String> listImgSrc, int bnum, int timeout)

		{

			this.savedir = savedir;

			this.tnum = tnum;

			this.listImgSrc = listImgSrc;

			this.bunm = bnum;

			this.timeout = timeout;

		}

		@Override

		public void run()

		{

			for (int i = 0; i < tnum; i++)

			{

				String url = listImgSrc.get(bunm + i);

				String sps = url.substring(url.lastIndexOf("."), url.length());

				String imageName = UUID.randomUUID().toString() + sps;

				try

				{

					if (getPic(url, savedir, imageName, timeout))

					{

						System.out.println("*^_^*");

					} else

					{

						System.out.println("-_-!");

					}

				} catch (Exception e)

				{

					System.out.println("下载异常");

				}

			}

		}

	}

	/**

	 * GET方式下载照片

	 *

	 * @param purl

	 * @param folder

	 * @param filename

	 * @param timeout

	 * @return

	 * @throws Exception

	 */

	public boolean getPic(String purl, String folder, String filename, int timeout) throws Exception

	{

		URL url = new URL(purl);

		HttpURLConnection conn = (HttpURLConnection) url.openConnection();

		conn.setConnectTimeout(timeout);

		conn.setRequestMethod("GET");

		conn.setDoOutput(true);

		conn.setDoInput(true);

		if (conn.getResponseCode() == 200)

		{

			InputStream is = conn.getInputStream();

			byte[] bs = new byte[1024];

			int len;

			File sf = new File(folder);

			if (!sf.exists())

			{

				sf.mkdirs();

			}

			OutputStream os = new FileOutputStream(sf.getPath() + "\\" + filename);

			while ((len = is.read(bs)) != -1)

			{

				os.write(bs, 0, len);

			}

			os.close();

			is.close();

			return true;

		}

		return false;

	}

	/**

	 * 时间文件夹

	 *

	 * @return

	 */

	public static String saveDiff()

	{

		SimpleDateFormat formate = new SimpleDateFormat("yyyy-MM-dd-HH-mm-ss");

		return "\\" + formate.format(System.currentTimeMillis()) + "\\";

	}

}

java 抓取网页图片的更多相关文章

Python3简单爬虫抓取网页图片
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...
抓取网页图片的脚本(javascript)
抓取网页图片的脚本(javascript) 本文地址: http://blog.csdn.net/caroline_wendy/article/details/24172223 脚本内容 (没有换行) ...
Java 抓取网页中的内容【持续更新】
背景:前几天复习Java的时候看到URL类,当时就想写个小程序试试,迫于考试没有动手,今天写了下,感觉还不错内容1. 抓取网页中的URL 知识点:Java URL+ 正则表达式 import jav ...
C语言调用curl库抓取网页图片
思路是先用curl抓取网页源码,然后以关键字寻找出图片网址. #include <stdio.h> #include <stdlib.h> #include <str ...
C语言调用curl库抓取网页图片(转)
思路是先用curl抓取网页源码,然后以关键字寻找出图片网址. 范例: #include <stdio.h> #include <stdlib.h> #include < ...
java抓取网页数据，登录之后抓取数据。
最近做了一个从网络上抓取数据的一个小程序.主要关于信贷方面,收集的一些黑名单网站,从该网站上抓取到自己系统中. 也找了一些资料,觉得没有一个很好的,全面的例子.因此在这里做个笔记提醒自己. 首先需要一 ...
Java抓取网页数据（原网页+Javascript返回数据）
有时候由于种种原因,我们需要采集某个网站的数据,但由于不同网站对数据的显示方式略有不同! 本文就用Java给大家演示如何抓取网站的数据:(1)抓取原网页数据:(2)抓取网页Javascript返回的数 ...
Java抓取网页数据（原来的页面+Javascript返回数据）
转载请注明出处! 原文链接:http://blog.csdn.net/zgyulongfei/article/details/7909006 有时候因为种种原因,我们须要採集某个站点的数据,但因为不同 ...
使用JAVA抓取网页数据
一.使用 HttpClient 抓取网页数据 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 ...

随机推荐

pandas处理数据
读文件 pd.read_csv('path/to/file.txt',header=0,names='ab',index=0) names Columns这个可以不写,制定索引列是第一列,这样就没有序 ...
注册码_EditPlus3
1.来自"http://jingyan.baidu.com/article/67508eb4d78cfe9cca1ce488.html" Name: www.cnzz.cc Co ...
(十六)getsockname()
简述: 获取一个套接口的本地名字. #include <winsock.h> int PASCAL FAR getsockname( SOCKET s, struct sockaddr F ...
调试多线程 & 查死锁的bug & gcore命令 & gdb对多线程的调试 & gcore & pstack & 调试常用命令
gdb thread apply all bt 如果你发现有那么几个栈停在 pthread_wait 或者类似调用上,大致就可以得出结论:就是它们几个儿女情长,耽误了整个进程. 注意gdb的版本要高于 ...
Js 常用函数
1. 算数函数(Math) 1)Js小数取整常用于:分页算法 js 小数取整的函 .丢弃小数部分,保留整数部分 js:parseInt(/) .向上取整,有小数就整数部分加1 js: Math.ce ...
Kafka 高可用设计
Kafka 高可用设计 2016-02-28 杜亦舒 Kafka在早期版本中,并不提供高可用机制,一旦某个Broker宕机,其上所有Partition都无法继续提供服务,甚至发生数据丢失对于分布式系统 ...
SQL Server Reporting Service(SSRS) 第一篇我的第一个SSRS例子
很早就知道SQL SERVER自带的报表工具SSRS,但一直没有用过,最近终于需要在工作中一展身手了,于是我特地按照自己的理解做了以下总结: 1. 安装软件结构 SSRS全称SQL Server Re ...
linux centos yum安装LAMP环境
centos 6.5 1.yum安装和源代码编译在使用的时候没啥区别,但是安装的过程就大相径庭了,yum只需要3个命令就可以完成,源代码需要13个包,还得加压编译,步骤很麻烦,而且当做有时候会出错,源 ...
linux笔记：linux服务管理
linux服务的分类: 启动和自启动: 查询已经安装的服务: RPM包的默认安装路径: 独立服务的启动: 独立服务的自启动: 基于xinetd的服务的管理: xinetd服务的自启动: 源码包安装服务 ...
[C语言入门笔记]分支结构与数组
分支结构与数组什么是分支结构? 分支结构是用户或者程序可以选择下一步执行哪个语句分支结构有哪些? If If Else If Else If Switch 在初学者的学习过程中第一种和第二种比较普 ...

java 抓取网页图片

java 抓取网页图片的更多相关文章

随机推荐

热门专题