几天前偶尔看到有人发帖子问“如何自动识别判断url中的中文参数是GB2312还是Utf-8编码” 也拜读了wcwtitxu使用巨牛的正则表达式检测UTF8编码的算法. 使用无数或条件的正则表达式用起来却是性能不高. 刚好曾经在项目中有类似的需求,这里把处理思路和整理后的源代码贴出来供大家参考 先聊聊原理: UTF8的编码规则如下表 看起来很复杂,总结起来如下: ASCII码(U+0000 - U+007F),不编码 其余编码规则为 •第一个Byte二进制以形式为n个1紧跟个0 (n >= 2),…