JAVA-替换html中图片的路径-从html代码中提取图片路径并下载(完整版)
transHtml方法实现提取网络图片中得图片路径,将其重新下载到本地,并替换html中原来得路径
package com.googosoft.until; import java.io.BufferedInputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.ArrayList;
import java.util.Date;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import javax.servlet.http.HttpServletRequest; /**
* @author sonyan
* @version 2019年11月25日 下午2:12:32
* @desc
*/
public class Test { /**
* 将html中的图片下载到服务器,并且使用服务器上图片的地址替换图片的网络路径
* @param html 要处理的html
* @param request
* @param uploadFolder 服务器上保存图片的目录
* @return
*/
public static String transHtml(String html,HttpServletRequest request,String uploadFolder){
List<String> imgList = getImgStrList(html,request);
for (String imgStr : imgList) {
try {
String newUrl = reSaveImage(imgStr, request,uploadFolder);
html = html.replace(imgStr, newUrl);
} catch (Exception e) {
e.printStackTrace();
}
}
return html;
} /**
* 将指定的网络图片保存到本地指定目录
* @param httpUrl 图片原来的网络路径
* @param request
* @param uploadFolder 服务器上保存图片的目录
* @return httpUrl newPath
*/
private static String reSaveImage(String httpUrl, HttpServletRequest request,String uploadFolder){
FileOutputStream out = null;
BufferedInputStream in = null;
HttpURLConnection connection = null;
Map<String, Object> urlMap = new HashMap<>(); byte[] buf = new byte[1024];
int len = 0;
try {
URL url = new URL(httpUrl);
connection = (HttpURLConnection) url.openConnection();
connection.connect();
in = new BufferedInputStream(connection.getInputStream());
urlMap = getNewPath(httpUrl, request,uploadFolder);
out = new FileOutputStream(urlMap.get("newPath").toString());
while ((len = in.read(buf)) != -1) {
out.write(buf, 0, len);
}
out.flush();
} catch (Exception e) {
e.printStackTrace();
} finally {
try {
in.close();
out.close();
connection.disconnect();
} catch (IOException e) {
e.printStackTrace();
}
} return urlMap.get("newUrl").toString();
} /**
* 获取保存在服务器上的图片的实际存储地址以及访问地址
* @param httpUrl 图片原来的网络路径
* @param request
* @param uploadFolder服务器上保存图片的目录
* @return
*/
private static Map<String, Object> getNewPath(String httpUrl, HttpServletRequest request,String uploadFolder) {
Map<String, Object> relMap = new HashMap<>();
String fileName = getFileName();
String filefix = fileName.substring(fileName.lastIndexOf(".") + 1).toLowerCase();// 文件后缀
fileName = UuidUtil.get32UUID() + "." + filefix;
String prefix = getUrlPrefix(request) + "/iconimg/";
relMap.put("newUrl", prefix + fileName);
relMap.put("newPath", uploadFolder + fileName);
return relMap;
} /**
* 设置图片的名称(时间+用户编号)
* @return
*/
private static String getFileName() {
return "reload"+File.pathSeparator+new Date().getTime()+".jpg";
} /**
* 提取HTML字符串中的img
* @param htmlStr 要处理的html字符串
* @return
*/
private static List<String> getImgStrList(String htmlStr,HttpServletRequest request) {
List<String> list = new ArrayList<>();
String img = "";
Pattern p_image;
Matcher m_image;
String regEx_img = "<img.*src\\s*=\\s*(.*?)[^>]*?>";
p_image = Pattern.compile(regEx_img, Pattern.CASE_INSENSITIVE);
m_image = p_image.matcher(htmlStr);
while (m_image.find()) {
img = m_image.group();
Matcher m = Pattern.compile("src\\s*=\\s*\"?(.*?)(\"|>|\\s+)").matcher(img);
while (m.find()) {
String path = m.group(1);
if(!path.startsWith(getUrlPrefix(request))){
list.add(handleSrc(path));
}
}
}
return list;
} /**
* 去除src路径中的前后引号
* @param src 图片的src路径
* @return
*/
private static String handleSrc(String src) {
if (src != null) {
if (src.startsWith("'")|| src.startsWith("\"")) {
return src.substring(1, src.length());
}
if (src.endsWith("'")|| src.endsWith("\"")) {
return src.substring(0, src.length());
}
}
return src;
} /**
* 获取网站的URL
* @param request
* @return 例如:http://192.168.11.3:8089
*/
public static String getUrlPrefix(HttpServletRequest request) {
StringBuffer str = new StringBuffer();
str.append(request.getScheme());
str.append("://");
str.append(request.getServerName());
if (80 != request.getServerPort()) {
str.append(":" + request.getServerPort());
}
str.append(request.getContextPath());
return str.toString();
}
}
JAVA-替换html中图片的路径-从html代码中提取图片路径并下载(完整版)的更多相关文章
- 为什么阿里巴巴Java开发手册中不允许魔法值出现在代码中?
在阅读<阿里巴巴Java开发手册>时,发现有一条关于关于常量定义的规约,具体内容如下: 图中的反例是将数据缓存起来,并使用魔法值加链路 id 组成 key,这就可能会出现其他开发人员在复制 ...
- 使用Java8中的Optional类来消除代码中的null检查
简介 Optional类是Java 8新增的一个类,Optional 类主要解决的问题是臭名昭著的空指针异常(NullPointerException). —— 每个 Java 程序员都非常了解的异常 ...
- django中使用FastDFS分布式文件系统接口代码实现文件上传、下载、更新、删除
运维使用docker部署好之后FastDFS分布式文件系统之后,提供给我接口如下: fastdfs tracker 192.168.1.216 192.168.1.217 storage 192.16 ...
- php正则过滤html标签、空格、换行符的代码,提取图片
$descclear = str_replace("r","",$descclear);//过滤换行 $descclear = str_replace(&quo ...
- sublime中使用插件anaconda而在代码中出现方框
这个标志是说不符合PEP8标准,比如使用了Tab做缩进:一行过长等问题. 可以在可以在 Sublime > Preferences > Package Settings > Anac ...
- 去除C/C++程序代码中的注释
最近搞软件著作权,去除代码空行和注释比较麻烦,想写个程序自动去除,去网上搜了下,发现有类似的程序,不过只有去除注释.鉴于word中可以去除空行(用^p^p替换^p),先用网上的代码,以后有时间写个完整 ...
- Python提取图片的ROI
图像处理经常需要提取图片的ROI,本文使用Python提取图片的ROI. 使用的Module是PIL (Pillow),一个图像处理库,用到的函数为类 Image 中的 crop 方法. 函数原型为: ...
- System.Diagnostics.Conditional 的妙用 -- 把文档放在代码中
最近的工作跟 UI 打交道比较多, 各种坑. 今天从 Prefab 的序列化功能来说说 System.Diagnostics.Conditional 的妙用. 我们做 UI 面对各种按钮, 组件的获取 ...
- Python-Jenkins API使用 —— 在后端代码中操控Jenkins
最近在工作中需要用到在后台代码中触发Jenkins任务的构建,于是想到Jenkins是否有一些已经封装好的API类库提供,用于处理跟Jenkins相关的操作.下面就简单介绍下我的发现. Linux C ...
随机推荐
- Centos7在防火墙中添加访问端口
1. 查看jenkins启动状态命令:systemctl status Jenkins 保证jenkins启动,此处的状态为正在运行 2. 查看防火墙状态命令:systemct ...
- 后台执行linux命令
/** * * 方法说明:移植执行linux命令 * * @param cmdStr 需要执行的linux命令 * @return 执行命令后的输出(如果是启动一个进程,则可能一直无法返回) * @t ...
- OpenGL基本图元类型
GL_POINTSGL_LINESGL_LINE_STRIPGL_LINE_LOOPGL_TRIANGLESGL_TRIANGLE_STRIPGL_TRIANGLE_FANGL_QUADSGL_QUA ...
- Vue - 自定义组件双向绑定
前言 无论在任何的语言或框架中,我们都提倡代码的复用性.对于Vue来说也是如此,相同的代码逻辑会被封装成组件,除了复用之外,更重要的是统一管理提高开发效率.我真就接手过一个项目,多个页面都会用到的列表 ...
- array.find()方法
//array.find(function(currentValue, index, arr),thisValue) 方法说明 let tempArray = [ {"key":1 ...
- C++-POJ2352-Stars[数据结构][树状数组]
/* 虽然题目没说,但是读入有以下特点 由于,输入是按照按照y递增,如果y相同则x递增的顺序给出的 所以,可以利用入读的时间进行降为处理 */ 于是我们就得到了一个一维的树状数组解法啦 值得一提:坐标 ...
- AcWing 874. 筛法求欧拉函数
#include<bits/stdc++.h> using namespace std; typedef long long ll; ; int primes[N],cnt; int ph ...
- set,get,setter
JS对象属性中get/set与getter/setter是什么 2019-01-18 15:07:44 CHENKAI188 阅读数 686更多 分类专栏: JS修仙系列 版权声明:本文为博主原创 ...
- C语言编译和链接详解(通俗易懂,深入本质)
我们平时所说的程序,是指双击后就可以直接运行的程序,这样的程序被称为可执行程序(Executable Program).在 Windows 下,可执行程序的后缀有.exe和.com(其中.exe比较常 ...
- zlt项目实践
nacos gateWay fronted oath2 codeGenerate log-app monitor-app search-app