word表格转html后去除冗余代码
word可以另存为html文件,通过这个功能,可以快速实现网页展示word内容,特别是表格的编辑,它包含tr、td、th、rowspan、colspan等内容,直接写比较繁琐。
但word转换过来的html默认是带有很多格式代码,那么如何去除这些冗余代码,只保留主内容呢?
本来是打算从网上找工具的,但发现没有现成的,一般都是推荐用工具的文本替换来去除,这样不能复用。因此,本人采用nodejs写了一小段代码,来去除冗余代码。
主要思路是:
- nodejs读取html文件的文本内容
 - 用substring函数获取table内容
 - 用正则去除多余标签
 - 用正则去除多余属性
 - 用正则去除多余空格
 
var fs = require('fs')
// 异步读取
fs.readFile('static/detail/sheet004.html', function (err, data) {
    if (err) {
        return console.error(err);
    }
    // 步骤1:获取table内容
    var content = data.toString();
    content = content.substring(content.indexOf("<table"), content.indexOf("</table>") + 8);
    // 步骤2:去除多余的标签
    ['span', 'p', 'o', 'font'].forEach(item => {
        content = content.replace(new RegExp(`<${item}(.*?)>(.*?)<\/${item}.*?>`, 'gi'), function(match, p1, p2) {
            return p2;
        });
    });
    ['col'].forEach(item => {
        content = content.replace(new RegExp(`<${item}(.*?)\/>`, 'gi'), "");
    })
    // 步骤3:去除多余的属性元素
    // 去除带引号的属性
    content = content.replace(/(style)=(".*?"|'.*?')/g, "");
    // 去除不带引号的属性
    content = content.replace(/(class|border|cellspacing|MsoNormalTable|valign|width|center| |x:str|height|x:num|cellpadding)(=[^ \f\n\r\t\v>]*)?/g, "");
    // 步骤4:去除多余空格
    content = content.replace(/(\S+)(\s+)/g, function(match, p1, p2) {
        return p1 + ' ';
    })
    content = content.replace(/(\s)(>|<)/g, function(match, p1, p2) {
        return p2;
    })
    console.log(content);
 });
word表格转html后去除冗余代码的更多相关文章
- 使用gulp-uncss精简css,去除冗余代码
		
写html页面的时候,多修改几次就会出现很多无用的css代码,下面使用gulp-uncss来精简css文件,去掉没用的css代码 1.首先找个目录创建一个gulp项目在命令行输入:npm init ...
 - [转载]JAVA获取word表格中数据的方案
		
上一个项目的开发中需要实现从word中读取表格数据的功能,在JAVA社区搜索了很多资料,终于找到了两个相对最佳的方案,因为也得到了不少网友们的帮助,所以不敢独自享用,在此做一个分享. 两个方案分别是: ...
 - [原创]JAVA获取word表格中数据的方案
		
上一个项目的开发中需要实现从word中读取表格数据的功能,在JAVA社区搜索了很多资料,终于找到了两个相对最佳的方案,因为也得到了不少网友们的帮助,所以不敢独自享用,在此做一个分享. 两个方案分别是: ...
 - 批量去除Teleport Pro整站下载文件冗余代码
		
teleport pro tppabs标签批量删除 teleport pro tppabs标签批量删除 使 用Teleport Pro下载的网页代码中包含了很多垃圾代码,比如下载的html网页代码中会 ...
 - 去除整站下载文件中的tppabs等冗余代码
		
用TeleprotUltra复制了一个网站,结果网页中出现了很多形如tppabs=””的冗余代码,点击vs中的“在文件中查找”图标,打开“查找和替换”对话框,转到“快速替换”,然后进行以下设置: “查 ...
 - 如何使用免费控件将Word表格中的数据导入到Excel中
		
我通常使用MS Excel来存储和处理大量数据,但有时候经常会碰到一个问题—我需要的数据存储在word表格中,而不是在Excel中,这样处理起来非常麻烦,尤其是在数据比较庞大的时候, 这时我迫切地需要 ...
 - 怎么批量修改Word表格的宽度
		
怎么批量修改Word表格的宽度 怎么批量修改Word表格的宽度呢.Word表格可根据窗口自动调整表格宽度,使得所有的表格宽度和页面宽度一样.当页面设置了新的页边距后,所有的表格都需要调整新的宽度.或者 ...
 - poi导出word表格详解 超详细了
		
转:非常感谢原作者 poi导出word表格详解 2018年07月20日 10:41:33 Z丶royAl 阅读数:36138 一.效果如下 二.js代码 function export_word( ...
 - 通过Aspose.Word和ZXING生成复杂的WORD表格
		
1.前言 这是我之前做的一个项目中要求的功能模块,它的需求是生成一个WORD文档,需要每页一个表格并且表格中需要插入文字.条形码和二维码等信息,页数可控制.具体的效果如下图所示: 可以看到有以下几点是 ...
 
随机推荐
- Python代码缩进与测试模块
			
一.Python代码缩进 Python 函数没有明显的 begin 和 end ,没有标明函数的开始和结束的花括号.唯一的分隔符是一个冒号 ( : ),接着代码本身是缩进的. 例如:缩进 bui ...
 - Python 远程开机
			
用 Python 关机你肯定听过或者实践过,那么用 Python 开机呢?这是一个神奇的方法,教你如何用 Python 来开机. 本文目标 远程开机原理 Python 远程开机代码实现 Python ...
 - [Swift]LeetCode749. 隔离病毒 | Contain Virus
			
A virus is spreading rapidly, and your task is to quarantine the infected area by installing walls. ...
 - Vue生命周期详解
			
Vue所有的生命周期钩子自动绑定在this上下文到实例中,因此你可以访问数据,对属性和方法进行运算.这意味着你不能使用箭头函数来定义一个生命周期方法.这是因为箭头函数绑定了父上下文,因此this与你期 ...
 - 『Candies 差分约束系统』
			
差分约束系统 我们先来认识一下差分约束系统鸭! 差分约束系统是一种特殊的\(n\)元一次不等式组,它包含了\(n\)个变量\(x_1-x_n\)以及\(m\)个不等式(约束条件).其中每一个不等式形如 ...
 - 2016年,总结篇 续 如何从 JQ 转到 VueJS 开发(一)
			
接着 2016 年的总结,我们来看看 2016年 国内最火且没有之一的前端MVVM 框架 VueJs 虽然 到写文章的这个时间点,VueJs已经发布了 2.1.x 了, 但是对于很多 Vuejs 的初 ...
 - SpringBoot入门教程(八)配置logback日志
			
Logback是由log4j创始人设计的又一个开源日志组件.logback当前分成三个模块:logback-core,logback- classic和logback-access.logback-c ...
 - Java基础5:抽象类和接口
			
本文主要介绍了抽象类和接口的特性和使用方法. 具体代码在我的GitHub中可以找到 https://github.com/h2pl/MyTech 文章首发于我的个人博客: https://h2pl.g ...
 - SpringBoot读取yml中的配置,并分离配置文件
			
前言 在项目中经常遇到需要读取配置文件中的配置信息,这些配置信息之所以不写在代码中是因为实际项目发布或者部署之后会进行更改,而如果写在代码中编译之后没有办法进行修改. 之前使用的是properties ...
 - 免费IPv6访问收费IPv4,校园网免流量
			
软件:马上6 介绍: “可以让用户在免费的IPv6网络环境,有具备访问收费的IPv4互联网内容的能力!节省校园网流量!使用马上6客户端软件之后可以访问的IPv4互联网的内容(包括视频.游戏.音乐.学习 ...