爬虫的原理获取html中的图片到本地

如果你想获取哪个网页的图片，如果你想知道那个网址的美女，还等什么。代码走起：下载即可使用

完成这次瞎爬的原理如下：

　第一步：获取html内容
* 第二步：然后在获取的html文本中寻找图片，根据html标记语言不难发现图片通常带有<img>
* 第三步：然后获取img标签信息中找取图片的地址信息，需要构造图片地址的正则表达式
* 第四步：最后通过图片地址信息下载图片

package com.huojg.reptile;

import java.io.BufferedReader;

import java.io.File;

import java.io.FileOutputStream;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.net.URL;

import java.net.URLConnection;

import java.util.ArrayList;

import java.util.Date;

import java.util.List;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

/**

 * 玩玩爬虫。写个小程序，获取url图片美女

 *

 * 第一步：获取html内容

 * 第二步：然后在获取的html文本中寻找图片，根据html标记语言不难发现图片通常带有<img>，所以

 * 第三步：然后获取img标签信息中找取图片的地址信息，需要构造图片地址的正则表达式

 * 第四步：最后通过图片地址信息下载图片

 * */

public class Reptile {

     // 地址

    private static final String URL = "http://www.uml.org.cn/oobject/201104212.asp";

     // 2.获取img标签正则

    private static final String IMGURL_REG = "<img.*src=(.*?)[^>]*?>";

    // 获取src路径的正则

    private static final String IMGSRC_REG = "[a-zA-z]+://[^\\s]*";

    public static void main(String[] args) {

        try {

            Reptile cm=new Reptile();

            //获得html文本内容

            String HTML = cm.getHtml(URL);

            //获取图片标签

            List<String> imgUrl = cm.getImageUrl(HTML);

            //获取图片src地址

            List<String> imgSrc = cm.getImageSrc(imgUrl);

            //下载图片

            cm.Download(imgSrc);

        }catch (Exception e){

            System.out.println("发生错误");

        }

    }

    //1.获取HTML内容

    private String getHtml(String url)throws Exception{

        URL url1=new URL(url);//使用java.net.URL

        URLConnection connection=url1.openConnection();//打开链接

        InputStream in=connection.getInputStream();//获取输入流

        InputStreamReader isr=new InputStreamReader(in);//流的包装

        BufferedReader br=new BufferedReader(isr);

        String line;

        StringBuffer sb=new StringBuffer();

        while((line=br.readLine())!=null){//整行读取

            sb.append(line,0,line.length());//添加到StringBuffer中

            sb.append('\n');//添加换行符

        }

        //关闭各种流，先声明的后关闭

        br.close();

        isr.close();

        in.close();

        return sb.toString();

    }

  //3.获取ImageUrl地址

    private List<String> getImageUrl(String html){

        Matcher matcher=Pattern.compile(IMGURL_REG).matcher(html);

        List<String>listimgurl=new ArrayList<String>();

        while (matcher.find()){

            listimgurl.add(matcher.group());

        }

        return listimgurl;

    }

    //获取ImageSrc地址

    private List<String> getImageSrc(List<String> listimageurl){

        List<String> listImageSrc=new ArrayList<String>();

        for (String image:listimageurl){

            Matcher matcher=Pattern.compile(IMGSRC_REG).matcher(image);

            while (matcher.find()){

                listImageSrc.add(matcher.group().substring(0, matcher.group().length()-1));

            }

        }

        return listImageSrc;

    }

  //下载图片

    private void Download(List<String> listImgSrc) {

        try {

            //开始时间

            Date begindate = new Date();

            for (String url : listImgSrc) {

                //开始时间

                Date begindate2 = new Date();

                String imageName = url.substring(url.lastIndexOf("/") + 1, url.length());

                URL uri = new URL(url);

                InputStream in = uri.openStream();

                FileOutputStream fo = new FileOutputStream(new File("D:res/"+imageName));//文件输出流

                byte[] buf = new byte[1024];

                int length = 0;

                System.out.println("开始下载:" + url);

                while ((length = in.read(buf, 0, buf.length)) != -1) {

                    fo.write(buf, 0, length);

                }

                //关闭流

                in.close();

                fo.close();

                System.out.println(imageName + "下载完成");

                //结束时间

                Date overdate2 = new Date();

                double time = overdate2.getTime() - begindate2.getTime();

                System.out.println("耗时：" + time / 1000 + "s");

            }

            Date overdate = new Date();

            double time = overdate.getTime() - begindate.getTime();

            System.out.println("总耗时：" + time / 1000 + "s");

        } catch (Exception e) {

            System.out.println("下载失败");

        }

    }

}

结果自己去查看吧；

内容分析：

本方法主要的使用jdk中java.net包下的URL与URLConnection两个类完成连接。

爬虫的原理获取html中的图片到本地的更多相关文章

c# 应用NPOI 获取Excel中的图片，保存至本地的算法
要求:读取excel中的图片,保存到指定路径思路: 利用NPOI中 GetAllPictures()方法获取图片信息步骤: 1.新建一个Windows窗体应用程序 2.桌面新建一个excel,贴 ...
C#获取Html中的图片元素路径
使用Ueditor的时候把文章以HTML标签的方式存在数据库中,同时还要将文章的第一张图片的路径一并存入数据库,所以就需要在Html中获取第一个图片的路径,没有图片的话设置一个默认的图片.代码如下: ...
Java 获取Word中指定图片的坐标位置
本文介绍通过Java程序获取Word文档中指定图片的坐标位置. 程序运行环境: Word测试文档:.docx 2013 Free Spire.doc.jar 3.9.0 IntelliJ IDEA J ...
js获取url参数、图片转本地base64跨域问题
获取url参数是经常需要用的一个方法,url上的参数可以让我们的程序执行更灵活. 图片转本地也是很实用的,因为海报合成通常只支持本地. 下面我们来看看这些功能的实现: 获取所有参数,采用split拆分 ...
Python抓取网页中的图片到本地
今天在网上找了个从网页中通过图片URL,抓取图片并保存到本地的例子: #!/usr/bin/env python # -*- coding:utf- -*- # Author: xixihuang # ...
[c#]获取exchange中的图片
摘要在exchange 2007或者2010中获取的邮件内容为html标签格式,也就是一个页面.如果里面含有img标签,你会发现img标签的src属性为cid:xxxxxxxxxxxx的一串字符串, ...
Android Post方式发送信息和获取URL中的图片
需要Internet权限,AndroidManifest.xml <uses-permission android:name="android.permission.INTERNET& ...
java爬虫--使用正则表达式获取网页中的email
package com.enation.newtest; import java.io.*; import java.util.regex.*; import java.net.*; public c ...
Java jsoup获取网页中的图片
获取图片 package com.vfsd.net; import java.io.File; import java.io.FileOutputStream; import java.io.IOEx ...

随机推荐

Java StringBuffer与StringBuider
String 的值是不可变的,每次对String的操作都会生成新的String对象,不仅效率低,而且耗费大量内存空间. StringBuffer类和String类一样,也用来表示字符串,但是Strin ...
线程同步工具之CountDownLatch
CountDownLatch,一个同步辅助类,在完成一组其他线程汇总执行的操作前,它允许一个或多个线程一直等待主要方法: public CountDownLatch(int count); ...
Linux CURL的安装
Linux CURL的安装 Linux CURL的安装 --获得安装包,从网上直接下载或者其他途径,这里直接wget# wget http://curl.haxx.se/download/cur ...
IOS调用WCF提供的服务方法，但是方法的参数是WCF那边自定义的对象，这样有办法调用么，如果可以IOS应该怎么传参呢？请问有了解的么，
最近做一个项目后端使用WCF接收Android手机拍照并带其它参数保存到服务器里:刚好把最近学习的WCF利用上,本以为是个比较简单的功能应该很好实现,没想到其中碰到不少问题,在网上搜索很久一直没有想到 ...
[置顶] kubernetes--Init Container
概念 Init Container就是做初始化工作的容器.可以有一个或多个,如果有多个,这些 Init Container 按照定义的顺序依次执行,只有所有的InitContainer 执行完后,主容 ...
IntelliJ全家桶修改terminal字体的方法
IntelliJ IDEA 设置Terminal 窗口字体大小我在Setting中查看了所有和Terminal字样有关的设置,都没有找到设置字体大小的方法,原来Terminal也只需要设置Conso ...
Java防止SQL注入的几个途径
java防SQL注入,最简单的办法是杜绝SQL拼接,SQL注入攻击能得逞是因为在原有SQL语句中加入了新的逻辑,如果使用 PreparedStatement来代替Statement来执行SQL语句,其 ...
关于angularjs dom渲染结束再执行的问题
情景当我点击了button, div才能显示.并且我想知道这个div的高度. 问题当我点击这个button以后这个.chrome就然告诉我这个div高度是0.这不是睁着眼睛说瞎话吗?怎么能如此欺骗 ...
倍福TwinCAT(贝福Beckhoff)基础教程4.2 TwinCAT如何读写CSV文件
本程序只是在官方范例程序上稍作修改,在官方原有的范例中,演示了多种模式的读写(可以认为CSV文件是比TXT文件需要更多数据量的时候使用,比如记录一个小型的数据库集合) 但是写的比较混乱,甚至没有H ...
安全狗两个中危提权+NET提权
1.循环加组复现 for /l %%i in (1,1,1000) do @net user admin admin /add&@ net localgroup administrators ...

爬虫的原理获取html中的图片到本地

爬虫的原理获取html中的图片到本地的更多相关文章

随机推荐

热门专题