java爬虫-简单爬取网页图片

　　刚刚接触到“爬虫”这个词的时候是在大一，那时候什么都不明白，但知道了百度、谷歌他们的搜索引擎就是个爬虫。

现在大二。再次燃起对爬虫的热爱，查阅资料，知道常用java、python语言编程，这次我选择了java。在网上查找的

代码在本地跑大部分都不能使用，查找相关的资料教程也没有适合的。实在头疼、、、

　　现在自己写了一个简单爬取网页图片的代码，先分析一下自己写的代码吧

            //获得html文本内容

            String HTML = cm.getHtml(URL);

            //获取图片标签

            List<String> imgUrl = cm.getImageUrl(HTML);

            //获取图片src地址

            List<String> imgSrc = cm.getImageSrc(imgUrl);

            //下载图片

            cm.Download(imgSrc);

　　简单分为四个功能方法（函数），首先是要获取html文本

 //获取HTML内容

    private String getHtml(String url)throws Exception{

        URL url1=new URL(url);//使用java.net.URL

        URLConnection connection=url1.openConnection();//打开链接

        InputStream in=connection.getInputStream();//获取输入流

        InputStreamReader isr=new InputStreamReader(in);//流的包装

        BufferedReader br=new BufferedReader(isr);

        String line;

        StringBuffer sb=new StringBuffer();

        while((line=br.readLine())!=null){//整行读取

            sb.append(line,0,line.length());//添加到StringBuffer中

            sb.append('\n');//添加换行符

        }

        //关闭各种流，先声明的后关闭

        br.close();

        isr.close();

        in.close();

        return sb.toString();

    }

然后在获取的html文本中寻找图片，根据html标记语言不难发现图片通常带有<img>，所以

写一个关于img的正则表达式

    // 获取img标签正则

    private static final String IMGURL_REG = "<img.*src=(.*?)[^>]*?>";

接着是获取img标签信息，大部分涉及的是集合接口和正则表达式的知识

//获取ImageUrl地址

    private List<String> getImageUrl(String html){

        Matcher matcher=Pattern.compile(IMGURL_REG).matcher(html);

        List<String>listimgurl=new ArrayList<String>();

        while (matcher.find()){

            listimgurl.add(matcher.group());

        }

        return listimgurl;

    }

然后获取img标签信息中找取图片的地址信息，需要构造图片地址的正则表达式

// 获取src路径的正则

    private static final String IMGSRC_REG = "[a-zA-z]+://[^\\s]*";

接着是获取图片地址的信息，大部分涉及的也是集合接口和正则表达式的知识

//获取ImageSrc地址

    private List<String> getImageSrc(List<String> listimageurl){

        List<String> listImageSrc=new ArrayList<String>();

        for (String image:listimageurl){

            Matcher matcher=Pattern.compile(IMGSRC_REG).matcher(image);

            while (matcher.find()){

                listImageSrc.add(matcher.group().substring(0, matcher.group().length()-1));

            }

        }

        return listImageSrc;

    }

最后通过图片地址信息下载图片

//下载图片

    private void Download(List<String> listImgSrc) {

        try {

            //开始时间

            Date begindate = new Date();

            for (String url : listImgSrc) {

                //开始时间

                Date begindate2 = new Date();

                String imageName = url.substring(url.lastIndexOf("/") + 1, url.length());

                URL uri = new URL(url);

                InputStream in = uri.openStream();

                FileOutputStream fo = new FileOutputStream(new File("src/res/"+imageName));//文件输出流

                byte[] buf = new byte[1024];

                int length = 0;

                System.out.println("开始下载:" + url);

                while ((length = in.read(buf, 0, buf.length)) != -1) {

                    fo.write(buf, 0, length);

                }

                //关闭流

                in.close();

                fo.close();

                System.out.println(imageName + "下载完成");

                //结束时间

                Date overdate2 = new Date();

                double time = overdate2.getTime() - begindate2.getTime();

                System.out.println("耗时：" + time / 1000 + "s");

            }

            Date overdate = new Date();

            double time = overdate.getTime() - begindate.getTime();

            System.out.println("总耗时：" + time / 1000 + "s");

        } catch (Exception e) {

            System.out.println("下载失败");

        }

    }

展示一下运行结果：

上一下全部代码：

import java.io.*;

import java.net.URL;

import java.net.URLConnection;

import java.util.*;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class Main {

    // 地址

    private static final String URL = "http://www.tooopen.com/view/1439719.html";

    // 获取img标签正则

    private static final String IMGURL_REG = "<img.*src=(.*?)[^>]*?>";

    // 获取src路径的正则

    private static final String IMGSRC_REG = "[a-zA-z]+://[^\\s]*";

    public static void main(String[] args) {

        try {

            Main cm=new Main();

            //获得html文本内容

            String HTML = cm.getHtml(URL);

            //获取图片标签

            List<String> imgUrl = cm.getImageUrl(HTML);

            //获取图片src地址

            List<String> imgSrc = cm.getImageSrc(imgUrl);

            //下载图片

            cm.Download(imgSrc);

        }catch (Exception e){

            System.out.println("发生错误");

        }

    }

   //获取HTML内容

    private String getHtml(String url)throws Exception{

        URL url1=new URL(url);

        URLConnection connection=url1.openConnection();

        InputStream in=connection.getInputStream();

        InputStreamReader isr=new InputStreamReader(in);

        BufferedReader br=new BufferedReader(isr);

        String line;

        StringBuffer sb=new StringBuffer();

        while((line=br.readLine())!=null){

            sb.append(line,0,line.length());

            sb.append('\n');

        }

        br.close();

        isr.close();

        in.close();

        return sb.toString();

    }

    //获取ImageUrl地址

    private List<String> getImageUrl(String html){

        Matcher matcher=Pattern.compile(IMGURL_REG).matcher(html);

        List<String>listimgurl=new ArrayList<String>();

        while (matcher.find()){

            listimgurl.add(matcher.group());

        }

        return listimgurl;

    }

    //获取ImageSrc地址

    private List<String> getImageSrc(List<String> listimageurl){

        List<String> listImageSrc=new ArrayList<String>();

        for (String image:listimageurl){

            Matcher matcher=Pattern.compile(IMGSRC_REG).matcher(image);

            while (matcher.find()){

                listImageSrc.add(matcher.group().substring(0, matcher.group().length()-1));

            }

        }

        return listImageSrc;

    }

    //下载图片

    private void Download(List<String> listImgSrc) {

        try {

            //开始时间

            Date begindate = new Date();

            for (String url : listImgSrc) {

                //开始时间

                Date begindate2 = new Date();

                String imageName = url.substring(url.lastIndexOf("/") + 1, url.length());

                URL uri = new URL(url);

                InputStream in = uri.openStream();

                FileOutputStream fo = new FileOutputStream(new File("src/res/"+imageName));

                byte[] buf = new byte[1024];

                int length = 0;

                System.out.println("开始下载:" + url);

                while ((length = in.read(buf, 0, buf.length)) != -1) {

                    fo.write(buf, 0, length);

                }

                in.close();

                fo.close();

                System.out.println(imageName + "下载完成");

                //结束时间

                Date overdate2 = new Date();

                double time = overdate2.getTime() - begindate2.getTime();

                System.out.println("耗时：" + time / 1000 + "s");

            }

            Date overdate = new Date();

            double time = overdate.getTime() - begindate.getTime();

            System.out.println("总耗时：" + time / 1000 + "s");

        } catch (Exception e) {

            System.out.println("下载失败");

        }

    }

}

　　本人还是java初学者，能力有限，如有更好的代码或者教程可以留言，我们可以交流学习。
以上还有不足或者不对之处请指出，非常感谢个位。

java爬虫-简单爬取网页图片的更多相关文章

node：爬虫爬取网页图片
代码地址如下:http://www.demodashi.com/demo/13845.html 前言周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图片 ...
python requests库爬取网页小实例：爬取网页图片
爬取网页图片: #网络图片爬取 import requests import os root="C://Users//Lenovo//Desktop//" #以原文件名作为保存的文 ...
Java爬虫一键爬取结果并保存为Excel
Java爬虫一键爬取结果并保存为Excel 将爬取结果保存为一个Excel表格官方没有给出导出Excel 的教程这里我就发一个导出为Excel的教程导包因为个人爱好我喜欢用Gradle所以这 ...
erlang 爬虫——爬取网页图片
说起爬虫,大家第一印象就是想到了python来做爬虫.其实,服务端语言好些都可以来实现这个东东. 在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌 ...
【网络爬虫】【python】网络爬虫（五）：scrapy爬虫初探——爬取网页及选择器
在上一篇文章的末尾,我们创建了一个scrapy框架的爬虫项目test,现在来运行下一个简单的爬虫,看看scrapy爬取的过程是怎样的. 一.爬虫类编写(spider.py) from scrapy.s ...
python 爬虫（爬取网页的img并下载）
from urllib.request import urlopen # 引用第三方库 import requests #引用requests/用于访问网站(没安装需要安装) from pyquery ...
Python简单爬取Amazon图片-其他网站相应修改链接和正则
简单爬取Amazon图片信息这是一个简单的模板,如果需要爬取其他网站图片信息,更改URL和正则表达式即可 1 import requests 2 import re 3 import os 4 de ...
Java爬虫实践--爬取CSDN网站图片为例
实现的效果,自动在工程下创建Pictures文件夹,根据网站URL爬取图片,层层获取.在Pictures下以网站的层级URL命名文件夹,用来装该层URL下的图片.同时将文件名,路径,URL插入数据库, ...
Python多线程爬虫爬取网页图片
临近期末考试,但是根本不想复习!啊啊啊啊啊啊啊!!!! 于是做了一个爬虫,网址为 https://yande.re,网页图片为动漫美图(图片带点颜色........宅男福利 github项目地址为:h ...

随机推荐

Timus Online Judge 1057. Amount of Degrees（数位dp）
1057. Amount of Degrees Time limit: 1.0 second Memory limit: 64 MB Create a code to determine the am ...
ROS示例----导航功能包Husky_exploration
ROS导航功能包示例husky amcl gmapping slam exploration 此功能包包含如下文件: 结构如下: $ tree -L 2 . ├── CMakeLists.txt -& ...
iOS即时通讯输入框随字数自适应高度
代码地址如下:http://www.demodashi.com/demo/13210.html 前言本人最近在研究socket与聊天界面的UI,在写聊天界面UI的时候是模仿微信的界面其中的文字输入框 ...
ASP.NET MVC4空MVC项目添加脚本压缩和合并
本文介绍的是建立的空MVC项目如何添加该功能 1.选中MVC项目,右键>"管理解决反感的NuGet程序包" 2.在"联机"中在线搜索搜索"Op ...
查看tensorflow版本和存储位置
>>>import tensorflow as tf >>>tf.__version__ __是两个下划线,中间有空格 >>>tf.__path_ ...
Redis之ziplist数据结构
0.前言 redis初始创建hash表,有序集合,链表时, 存储结构采用一种ziplist的存储结构, 这种结构内存排列更紧密, 能提高访存性能. 本文介绍ziplist数据结构 1.ziplist存 ...
Android N(7.0) 在ListView里显示EditText时软键盘弹出时会自动切换到全键盘的问题?
Android N(7.0) 在ListView里显示EditText时软键盘弹出时会自动切换到全键盘的问题? 问题症状描述 Activity 在AndroidManifest.xml里设置andro ...
手把手教你用git和SourceTree上传项目到github细解（转）
尊重原创:https://blog.csdn.net/qq_32365567/article/details/52859166 一.引言我想大家现在都很熟悉github了,也能运用github上开源 ...
nginx利用lua实现nginx反向代理proxy_store缓存文件自删除
标题有点绕口.我尽量把关键词都贴进去.之前因为自己的nginx安装了ngx_lua模块,但是又需要引入但是安装luafilesystem又需要先安装luarocks,比较繁琐.这里就想记录一下安装过 ...
linux. -bash: fork: retry: Resource temporarily unavailable错误
切换用户或登陆服务器后执行ls命令报错: -bash: fork: retry: Resource temporarily unavailable 上面这段错误提示的本质是Linux操作系统无法创建更 ...

java爬虫-简单爬取网页图片

java爬虫-简单爬取网页图片的更多相关文章

随机推荐

热门专题