转自:http://blog.csdn.net/hj7jay/article/details/51280405 

众所周知页面上的字符内容通常都需要进行HTML转义才能正确显示,尤其对于Input,Textarea提交的内容,更是要进行转义以防止javascript注入攻击。

  通常的HTML转义主要是针对内容中的"<",">","&",以及空格、单双引号等。但其实还有很多字符也需要进行转义。具体的可以参考这篇文章
** 1、HTML转义
  参考上面的提到的文章,基本上可以确定以下的转义的范围和方式。
  1)对"\""、"&"、"'"、"<"、">"、空格(0x20)、0x00到0x20、0x7F-0xFF
  以及0x0100-0x2700的字符进行转义,基本上就覆盖的比较全面了。
  
   用javascript的正则表达式可以写为:
   this.REGX_HTML_ENCODE = /"|&|'|<|>|[\x00-\x20]|[\x7F-\xFF]|[\u0100-\u2700]/g; 
  2)为保证转义结果对浏览器的无差别,转义编码为实体编号,而不用实体名称。
  
  3)空格(0x20)通常转义为“ ”也就是“ ”。
  转义的代码非常简单:
  
[javascript] view plain copy

  1. this.encodeHtml = function(s){
  2. return (typeof s != "string") ? s :
  3. s.replace(this.REGX_HTML_ENCODE,
  4. function($0){
  5. var c = $0.charCodeAt(0), r = ["&#"];
  6. c = (c == 0x20) ? 0xA0 : c;
  7. r.push(c); r.push(";");
  8. return r.join("");
  9. });
  10. };
** 2、反转义
  既然有转义,自然需要反转义。
  1) 对“&#num;”实体编号的转义,直接提取编号然后fromCharCode就可以得到字符。
  2) 对于诸如“<”,需要建立一张如下的表来查询。
   this.HTML_DECODE = {
        "<"  : "<", 
        ">"  : ">", 
        "&" : "&", 
        " ": " ", 
        """: "\"", 
        "©": "©"
        // Add more
   };
  由此我们可以有反转义的正则表达式:
  this.REGX_HTML_DECODE = /&\w+;|&#(\d+);/g;
  反转的代码也很简单,如下:
[javascript] view plain copy

  1. this.decodeHtml = function(s){
  2. return (typeof s != "string") ? s :
  3. s.replace(this.REGX_HTML_DECODE,
  4. function($0,$1){
  5. var c = this.HTML_ENCODE[$0]; // 尝试查表
  6. if(c === undefined){
  7. // Maybe is Entity Number
  8. if(!isNaN($1)){
  9. c = String.fromCharCode(($1 == 160) ? 32 : $1);
  10. }else{
  11. // Not Entity Number
  12. c = $0;
  13. }
  14. }
  15. return c;
  16. });
  17. };

** 3、一个有意思的认识
  其实在用正则表达式转义之前,我一直都是用遍历整个字符串,逐个比较字符的方式。直到有一天,看到一篇文章说,javascript正则表达式是C实现的,比自己用javascript遍历字符要快,于是我就试着改写成上面这种方式。虽然代码看起来的确显得神秘而又牛叉,但遗憾的是,在我的Chrome 11 (FreeBSD 64 9.0)上,遍历字符转义/反转的方式要比上面正则表达式的代码快2到3倍(字符串长度越长越明显)。其实,想想也能明白为什么。
** 4、完整版本的代码
[javascript] view plain copy

  1. $package("js.lang"); // 没有包管理时,也可简单写成 js = {lang:{}};
  2. js.lang.String = function(){
  3. this.REGX_HTML_ENCODE = /"|&|'|<|>|[\x00-\x20]|[\x7F-\xFF]|[\u0100-\u2700]/g;
  4. this.REGX_HTML_DECODE = /&\w+;|&#(\d+);/g;
  5. this.REGX_TRIM = /(^\s*)|(\s*$)/g;
  6. this.HTML_DECODE = {
  7. "<" : "<",
  8. ">" : ">",
  9. "&" : "&",
  10. " ": " ",
  11. """: "\"",
  12. "©": ""
  13. // Add more
  14. };
  15. this.encodeHtml = function(s){
  16. s = (s != undefined) ? s : this.toString();
  17. return (typeof s != "string") ? s :
  18. s.replace(this.REGX_HTML_ENCODE,
  19. function($0){
  20. var c = $0.charCodeAt(0), r = ["&#"];
  21. c = (c == 0x20) ? 0xA0 : c;
  22. r.push(c); r.push(";");
  23. return r.join("");
  24. });
  25. };
  26. this.decodeHtml = function(s){
  27. var HTML_DECODE = this.HTML_DECODE;
  28. s = (s != undefined) ? s : this.toString();
  29. return (typeof s != "string") ? s :
  30. s.replace(this.REGX_HTML_DECODE,
  31. function($0, $1){
  32. var c = HTML_DECODE[$0];
  33. if(c == undefined){
  34. // Maybe is Entity Number
  35. if(!isNaN($1)){
  36. c = String.fromCharCode(($1 == 160) ? 32:$1);
  37. }else{
  38. c = $0;
  39. }
  40. }
  41. return c;
  42. });
  43. };
  44. this.trim = function(s){
  45. s = (s != undefined) ? s : this.toString();
  46. return (typeof s != "string") ? s :
  47. s.replace(this.REGX_TRIM, "");
  48. };
  49. this.hashCode = function(){
  50. var hash = this.__hash__, _char;
  51. if(hash == undefined || hash == 0){
  52. hash = 0;
  53. for (var i = 0, len=this.length; i < len; i++) {
  54. _char = this.charCodeAt(i);
  55. hash = 31*hash + _char;
  56. hash = hash & hash; // Convert to 32bit integer
  57. }
  58. hash = hash & 0x7fffffff;
  59. }
  60. this.__hash__ = hash;
  61. return this.__hash__;
  62. };
  63. };
  64. js.lang.String.call(js.lang.String);

   在实际的使用中可以有两种方式:
  1)使用js.lang.String.encodeHtml(s)和js.lang.String.decodeHtml(s)。
  2)还可以直接扩展String的prototype
  
[javascript] view plain copy

  1. js.lang.String.call(String.prototype);
  2. // 那么
  3. var str = "&'\"中国abc def";
  4. var ec_str = str.encodeHtml();
  5. document.write(ec_str);
  6. document.write(""); // CU的博客在线编辑有bug,
  7. 放不上来!!!
  8. var dc_str = ec_str.decodeHtml();
  9. document.write(dc_str);

用Javascript(js)进行HTML转义工具(处理特殊字符显示)的更多相关文章

  1. Bootstrap入门(二十八)JS插件5:工具提醒

    Bootstrap入门(二十八)JS插件5:工具提醒 工具提示在使用过程中比较常见,但是实现起来有些麻烦,而bootstrap则很好地解决了这个问题. 我们来写一个简单的实例 先引入CSS文件和JS文 ...

  2. JS转换HTML转义符,编码及解码

    JS转换HTML转义符 //去掉html标签 function removeHtmlTab(tab) { return tab.replace(/<[^<>]+?>/g,'') ...

  3. 几种常见的JavaScript混淆和反混淆工具分析实战

    几种常见的JavaScript混淆和反混淆工具分析实战 xiaix2016-03-05+8共1195751人围观 ,发现 5 个不明物体WEB安全 信息安全常被描述成一场军备竞赛,白帽与黑帽,渗透测试 ...

  4. 2017最好的JavaScript框架、库和工具 — SitePoint

    与开发者数量相比,可能有更多的JavaScript框架.库和工具.截止到2017年5月,在GitHub上快速搜索能搜到超过110万的JavaScript项目. 在npmjs上有50万的可用包,并且这些 ...

  5. 前端Js框架汇总(工具多看)

    前端Js框架汇总(工具多看) 一.总结 一句话总结: 二.前端Js框架汇总 概述: 有些日子没有正襟危坐写博客了,互联网飞速发展的时代,技术更新迭代的速度也在加快.看着Java.Js.Swift在各领 ...

  6. 【JS】JS实现Html转义和反转义(html编码和解码)的方法总结

    1.JS实现html转义和反转义主要有两种方式: 1).利用用浏览器内部转换器实现html转义: 2).用正则表达式实现html转义: 2.封装的JS工具类: var HtmlUtil = { /*1 ...

  7. js正则表达式图形化工具-rline

    github地址:https://github.com/finance-sh/rline 在线demo: http://lihuazhai.com/demo/test.html 这是一个js正则表达式 ...

  8. JS转换HTML转义符

    JS转换HTML转义符 //去掉html标签 function removeHtmlTab(tab) { return tab.replace(/<[^<>]+?>/g,'') ...

  9. javascript(js)小数精度丢失的解决方案

    原因:js按照2进制来处理小数的加减乘除,在arg1的基础上 将arg2的精度进行扩展或逆扩展匹配,所以会出现如下情况. javascript(js)的小数点加减乘除问题,是一个js的bug如0.3* ...

  10. 【转】关于URL编码/javascript/js url 编码/url的三个js编码函数

    来源:http://www.cnblogs.com/huzi007/p/4174519.html 关于URL编码/javascript/js url 编码/url的三个js编码函数escape(),e ...

随机推荐

  1. SQL Server日志文件(LDF文件)

    一.日志文件过大处理方法: 1.设置数据库模式为简单模式:ALTER DATABASE 数据库名 SET RECOVERY SIMPLE 或者选中数据库-属性-选项-恢复模式设置为简单. 2.收缩日志 ...

  2. C#汉字转拼音(npinyin)将中文转换成拼音全文或首字母

    汉字转拼音貌似一直是C#开发的一个难题,无论什么方案都有一定的bug,之前使用了两种方案. 1.Chinese2Spell.cs 一些不能识别的汉字全部转为Z 2.Microsoft Visual S ...

  3. android应用内存占用测试(每隔一秒打印procrank的信息)

    1.内存占用 对于智能手机而言,内存大小是固定的:因此,如果单个app的内存占用越小,手机上可以安装运行的app就越多:或者说app的内存占用越小,在手机上运行就会越流畅.所以说,内存占用的大小,也是 ...

  4. HubbleDotNet 的注册码生成器

    从上次更新HubbletDotNet 到现在一晃3年多了.2012年我所在的公司被澳洲电信收购,从此我就变得特别忙,没有时间继续 HubbleDotNet 的开发和维护,非常非常的抱歉. Hubble ...

  5. 无法识别特性“configProtectionProvider”的解决方案

    在使用.Net自身提供的加密本配置文件后再用System.Configuration.ConfigurationManager.AppSettings["key"]获取值时会抛出异 ...

  6. bzoj2683

    2683: 简单题 Time Limit: 50 Sec  Memory Limit: 128 MBSubmit: 1018  Solved: 413[Submit][Status][Discuss] ...

  7. JAVA之IO流(字节流)

    输入和输出 JAVA的流分为输入流和输出流两部分, 输入流:InputStream或者Reader:从文件中读到程序中: 输出流:OutputStream或者Writer:从程序中输出到文件中: Re ...

  8. poj 3680 Intervals

    给定N个带权的开区间,第i个区间覆盖区间(ai,bi),权值为wi.现在要求挑出一些区间使得总权值最大,并且满足实轴上任意一个点被覆盖不超过K次. 1<=K<=N<=200.1< ...

  9. RabbitMQ 消息确认机制

    消息确认机制 在之前异常处理部分就已经写了,对于consumer的异常退出导致消息丢失,可以时候consumer的消息确认机制.重复的就不说了,这里说一些不一样的. consumer的消息确认机制 当 ...

  10. Protocol Framework - SNMP Tutorial

    30.4 Protocol Framework TCP/IP network management protocols2 divide the management problem into two ...