transHtml方法实现提取网络图片中得图片路径,将其重新下载到本地,并替换html中原来得路径
package com.googosoft.until;

import java.io.BufferedInputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.ArrayList;
import java.util.Date;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import javax.servlet.http.HttpServletRequest; /**
* @author sonyan
* @version 2019年11月25日 下午2:12:32
* @desc
*/
public class Test { /**
* 将html中的图片下载到服务器,并且使用服务器上图片的地址替换图片的网络路径
* @param html 要处理的html
* @param request
* @param uploadFolder 服务器上保存图片的目录
* @return
*/
public static String transHtml(String html,HttpServletRequest request,String uploadFolder){
List<String> imgList = getImgStrList(html,request);
for (String imgStr : imgList) {
try {
String newUrl = reSaveImage(imgStr, request,uploadFolder);
html = html.replace(imgStr, newUrl);
} catch (Exception e) {
e.printStackTrace();
}
}
return html;
} /**
* 将指定的网络图片保存到本地指定目录
* @param httpUrl 图片原来的网络路径
* @param request
* @param uploadFolder 服务器上保存图片的目录
* @return httpUrl newPath
*/
private static String reSaveImage(String httpUrl, HttpServletRequest request,String uploadFolder){
FileOutputStream out = null;
BufferedInputStream in = null;
HttpURLConnection connection = null;
Map<String, Object> urlMap = new HashMap<>(); byte[] buf = new byte[1024];
int len = 0;
try {
URL url = new URL(httpUrl);
connection = (HttpURLConnection) url.openConnection();
connection.connect();
in = new BufferedInputStream(connection.getInputStream());
urlMap = getNewPath(httpUrl, request,uploadFolder);
out = new FileOutputStream(urlMap.get("newPath").toString());
while ((len = in.read(buf)) != -1) {
out.write(buf, 0, len);
}
out.flush();
} catch (Exception e) {
e.printStackTrace();
} finally {
try {
in.close();
out.close();
connection.disconnect();
} catch (IOException e) {
e.printStackTrace();
}
} return urlMap.get("newUrl").toString();
} /**
* 获取保存在服务器上的图片的实际存储地址以及访问地址
* @param httpUrl 图片原来的网络路径
* @param request
* @param uploadFolder服务器上保存图片的目录
* @return
*/
private static Map<String, Object> getNewPath(String httpUrl, HttpServletRequest request,String uploadFolder) {
Map<String, Object> relMap = new HashMap<>();
String fileName = getFileName();
String filefix = fileName.substring(fileName.lastIndexOf(".") + 1).toLowerCase();// 文件后缀
fileName = UuidUtil.get32UUID() + "." + filefix;
String prefix = getUrlPrefix(request) + "/iconimg/";
relMap.put("newUrl", prefix + fileName);
relMap.put("newPath", uploadFolder + fileName);
return relMap;
} /**
* 设置图片的名称(时间+用户编号)
* @return
*/
private static String getFileName() {
return "reload"+File.pathSeparator+new Date().getTime()+".jpg";
} /**
* 提取HTML字符串中的img
* @param htmlStr 要处理的html字符串
* @return
*/
private static List<String> getImgStrList(String htmlStr,HttpServletRequest request) {
List<String> list = new ArrayList<>();
String img = "";
Pattern p_image;
Matcher m_image;
String regEx_img = "<img.*src\\s*=\\s*(.*?)[^>]*?>";
p_image = Pattern.compile(regEx_img, Pattern.CASE_INSENSITIVE);
m_image = p_image.matcher(htmlStr);
while (m_image.find()) {
img = m_image.group();
Matcher m = Pattern.compile("src\\s*=\\s*\"?(.*?)(\"|>|\\s+)").matcher(img);
while (m.find()) {
String path = m.group(1);
if(!path.startsWith(getUrlPrefix(request))){
list.add(handleSrc(path));
}
}
}
return list;
} /**
* 去除src路径中的前后引号
* @param src 图片的src路径
* @return
*/
private static String handleSrc(String src) {
if (src != null) {
if (src.startsWith("'")|| src.startsWith("\"")) {
return src.substring(1, src.length());
}
if (src.endsWith("'")|| src.endsWith("\"")) {
return src.substring(0, src.length());
}
}
return src;
} /**
* 获取网站的URL
* @param request
* @return 例如:http://192.168.11.3:8089
*/
public static String getUrlPrefix(HttpServletRequest request) {
StringBuffer str = new StringBuffer();
str.append(request.getScheme());
str.append("://");
str.append(request.getServerName());
if (80 != request.getServerPort()) {
str.append(":" + request.getServerPort());
}
str.append(request.getContextPath());
return str.toString();
}
}

JAVA-替换html中图片的路径-从html代码中提取图片路径并下载(完整版)的更多相关文章

  1. 为什么阿里巴巴Java开发手册中不允许魔法值出现在代码中?

    在阅读<阿里巴巴Java开发手册>时,发现有一条关于关于常量定义的规约,具体内容如下: 图中的反例是将数据缓存起来,并使用魔法值加链路 id 组成 key,这就可能会出现其他开发人员在复制 ...

  2. 使用Java8中的Optional类来消除代码中的null检查

    简介 Optional类是Java 8新增的一个类,Optional 类主要解决的问题是臭名昭著的空指针异常(NullPointerException). —— 每个 Java 程序员都非常了解的异常 ...

  3. django中使用FastDFS分布式文件系统接口代码实现文件上传、下载、更新、删除

    运维使用docker部署好之后FastDFS分布式文件系统之后,提供给我接口如下: fastdfs tracker 192.168.1.216 192.168.1.217 storage 192.16 ...

  4. php正则过滤html标签、空格、换行符的代码,提取图片

    $descclear = str_replace("r","",$descclear);//过滤换行 $descclear = str_replace(&quo ...

  5. sublime中使用插件anaconda而在代码中出现方框

    这个标志是说不符合PEP8标准,比如使用了Tab做缩进:一行过长等问题. 可以在可以在 Sublime > Preferences > Package Settings > Anac ...

  6. 去除C/C++程序代码中的注释

    最近搞软件著作权,去除代码空行和注释比较麻烦,想写个程序自动去除,去网上搜了下,发现有类似的程序,不过只有去除注释.鉴于word中可以去除空行(用^p^p替换^p),先用网上的代码,以后有时间写个完整 ...

  7. Python提取图片的ROI

    图像处理经常需要提取图片的ROI,本文使用Python提取图片的ROI. 使用的Module是PIL (Pillow),一个图像处理库,用到的函数为类 Image 中的 crop 方法. 函数原型为: ...

  8. System.Diagnostics.Conditional 的妙用 -- 把文档放在代码中

    最近的工作跟 UI 打交道比较多, 各种坑. 今天从 Prefab 的序列化功能来说说 System.Diagnostics.Conditional 的妙用. 我们做 UI 面对各种按钮, 组件的获取 ...

  9. Python-Jenkins API使用 —— 在后端代码中操控Jenkins

    最近在工作中需要用到在后台代码中触发Jenkins任务的构建,于是想到Jenkins是否有一些已经封装好的API类库提供,用于处理跟Jenkins相关的操作.下面就简单介绍下我的发现. Linux C ...

随机推荐

  1. 剑指offer系列——59/60.按之字形顺序打印二叉树/把二叉树打印成多行

    Q:请实现一个函数按照之字形打印二叉树,即第一行按照从左到右的顺序打印,第二层按照从右至左的顺序打印,第三行按照从左到右的顺序打印,其他行以此类推. A:BFS,偶数层reverse vector&l ...

  2. JAVA 注解教程(五)注解的提取

    注解与反射 注解通过反射获取.首先可以通过 Class 对象的 isAnnotationPresent() 方法判断它是否应用了某个注解 public boolean isAnnotationPres ...

  3. IDA pro 6.8显示中文字符串的方法

    IDA pro 6.8设置显示中文字符串的方法 M4x原创,转载请表明出处http://www.cnblogs.com/WangAoBo/p/7636335.html IDA是一款强大无比的反编译软件 ...

  4. C语言二维数组指针与指针数组

    http://c.biancheng.net/view/2022.html http://c.biancheng.net/view/2020.html

  5. mybatis-plus - 初识

    一. 集成 pom.xml <dependency> <groupId>com.alibaba</groupId> <artifactId>druid& ...

  6. Python - isinstance()更深刻的理解

    起因经过 今天翻collections.abc的文档时,我知道list的实例在逻辑上(因为duck typing 鸭子类型)是Container和不能hash的(因为list可变),就试下面的代码是否 ...

  7. mysql(1):简介

    typora-root-url: ./ SQL语法顺序和执行顺序 SQL语法顺序 SELECT [DISTINCT] <select_list> FROM <left_table&g ...

  8. JAVA Feign

    Feign 是一种声明式.模板化的 HTTP客户端 . 在Spring Cloud中使用 Feign, 我们可以做到使用HTTP请求远程服务时能与调用本地方法一样的编码体验,开发者完全感知不到这是远程 ...

  9. 转载:Laplace 变换

    转自: https://www.zhihu.com/question/22085329 https://wenku.baidu.com/view/691d4629640e52ea551810a6f52 ...

  10. 【C语言】指针函数例子

    #include<stdio.h> char* getword(char); char* getword(char c) { switch (c) { case'A':return&quo ...