Unicode的编码形式与对应的字符串相互转换

/**
 * Unicode的编码形式与对应的字符串相互转换
 * @author 白乾涛
 */
public class UnicodeUtils {
    public static void main(String[] args) throws UnsupportedEncodingException {
        test1();
        test2();
        //服务器返回的很可能是这种形式的字符串
        String unicodeMessages = "{\"code\":200,\"message\":\"\\u4fdd\\u5b58\\u6210\\u529f\"}";//所有的引号和反斜杠前面都要加一个反斜杠
        System.out.println(unicodeToString(unicodeMessages) + "\n");//{"code":200,"message":"保存成功"}
    }
    private static void test1() {
        System.out.println("【汉】的Unicode编码为【" + toUnicodeString('汉') + "】");//【汉】的Unicode编码为【\u6c49】
        System.out.println("【\\u6c49】对应的字符为【" + unicodeToString("\u6c49") + "】");//【\u6c49】对应的字符为【汉】
        System.out.println("\u6c49");//会自动解码【汉】
        System.out.println(0x9FFF - 0x3000 + "\n");//【28671】
    }
    private static void test2() {
        String string = "aA1:中国";
        String unicode = toUnicodeString(string);
        System.out.println("【" + string + "】的Unicode编码为【" + unicode + "】");//【\u0061\u0041\u0031\u003a\u4e2d\u56fd】
        System.out.println(unicodeToString(unicode));//【aA1:中国】
        for (int i = 0; i < unicode.length(); i += 6) {
            System.out.print(unicode.substring(i, i + 6));//并不会解码,只是把Unicode编码形式的字符串打印出来,为什么呢?
        }
        System.out.println("\n" + unicode);//同样,这里也不会解码。【\u0061\u0041\u0031\u003a\u4e2d\u56fd】
    }
    /**
     * 将【字符】转换成Unicode码形式【Unicode用两个字节来编码一个字符,2^16=16^4,所以可以用四个16进制数表示】
     */
    public static String toUnicodeString(char c) {
        StringBuilder sb = new StringBuilder("");
        String hexString = Integer.toHexString(c);
        sb.append("\\u");//用于标识这是一个Unicode码
        for (int j = hexString.length(); j < 4; j++) {
            sb.append(0);//不足四位用0填充
        }
        sb.append(hexString);
        return sb.toString();
    }
    /**
     * 将【字符串】转换成Unicode码形式
     */
    public static String toUnicodeString(String string) {
        StringBuilder sb = new StringBuilder("");
        for (int i = 0; i < string.length(); i++) {
            sb.append(toUnicodeString(string.charAt(i)));
        }
        return sb.toString();
    }
    /**
     * 将Unicode编码解析成字符串形式
     */
    public static String unicodeToString(String uString) {
        StringBuilder sb = new StringBuilder();
        int i = -1, pos = 0;
        while ((i = uString.indexOf("\\u", pos)) != -1) {
            sb.append(uString.substring(pos, i));
            if (i + 5 < uString.length()) {
                pos = i + 6;
                sb.append((char) Integer.parseInt(uString.substring(i + 2, i + 6), 16));
            }
        }
        sb.append(uString.substring(pos));
        return sb.toString();
    }
}

字符串编码格式转换

/**
 * 字符串编码格式转换
 * @author 白乾涛
 */
public class CodeUtils {
    public static void main(String[] args) {
        String string = "aA.1字符串编码格式转换";
        System.out.println(gbk2Unicode(string));
        System.out.println(gbk2utf8(string));
        System.out.println(utf2gbk(string));
        System.out.println(utf2Unicode(string));
        System.out.println(unicode2GBK(string));
        System.out.println(unicode2Utf8(string));
    }
    /**
     * GBK转UTF8
     * @param gbk    GBK编码格式的字符串
     * @return    UTF8编码格式的字符串
     */
    public static String gbk2utf8(String gbk) {
        String l_temp = gbk2Unicode(gbk);
        l_temp = unicode2Utf8(l_temp);
        return l_temp;
    }
    /**
     * UTF8转GBK
     * @param utf    UTF8编码格式的字符串
     * @return    GBK编码格式的字符串
     */
    public static String utf2gbk(String utf) {
        String l_temp = utf2Unicode(utf);
        l_temp = unicode2GBK(l_temp);
        return l_temp;
    }
    /**
     *GBK转Unicode
     * @param str    GBK编码格式的字符串
     * @return String    Unicode编码格式的字符串
     */
    public static String gbk2Unicode(String str) {
        StringBuffer result = new StringBuffer();
        for (int i = 0; i < str.length(); i++) {
            char chr1 = (char) str.charAt(i);
            if ((chr1 & (0x00FF)) == chr1) {
                result.append(chr1);
                continue;
            }
            result.append("\\u" + Integer.toHexString((int) chr1));
        }
        return result.toString();
    }
    /**
     *Unicode转GBK
     * @param dataStr    Unicode编码格式的字符串
     * @return String    GBK编码格式的字符串
     */
    public static String unicode2GBK(String dataStr) {
        int index = 0;
        StringBuffer buffer = new StringBuffer();
        int li_len = dataStr.length();
        while (index < li_len) {
            if (index >= li_len - 1 || !"\\u".equals(dataStr.substring(index, index + 2))) {
                buffer.append(dataStr.charAt(index));
                index++;
                continue;
            }
            String charStr = "";
            charStr = dataStr.substring(index + 2, index + 6);
            char letter = (char) Integer.parseInt(charStr, 16);
            buffer.append(letter);
            index += 6;
        }
        return buffer.toString();
    }
    /**
     * UTF8转Unicode
     * @param inStr    UTF8编码格式的字符串
     * @return        Unicode编码格式的字符串
     */
    public static String utf2Unicode(String inStr) {
        char[] myBuffer = inStr.toCharArray();
        StringBuffer sb = new StringBuffer();
        for (int i = 0; i < inStr.length(); i++) {
            UnicodeBlock ub = UnicodeBlock.of(myBuffer[i]);
            if (ub == UnicodeBlock.BASIC_LATIN) {
                sb.append(myBuffer[i]);
            } else if (ub == UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS) {
                int j = (int) myBuffer[i] - 65248;
                sb.append((char) j);
            } else {
                short s = (short) myBuffer[i];
                String hexS = Integer.toHexString(s);
                String unicode = "\\u" + hexS;
                sb.append(unicode.toLowerCase());
            }
        }
        return sb.toString();
    }
    /**
     *Unicode转UTF8
     * @param theString        Unicode编码格式的字符串
     * @return String    UTF8编码格式的字符串
     */
    public static String unicode2Utf8(String theString) {
        char aChar;
        int len = theString.length();
        StringBuffer outBuffer = new StringBuffer(len);
        for (int x = 0; x < len;) {
            aChar = theString.charAt(x++);
            if (aChar == '\\') {
                aChar = theString.charAt(x++);
                if (aChar == 'u') {
                    // Read the xxxx
                    int value = 0;
                    for (int i = 0; i < 4; i++) {
                        aChar = theString.charAt(x++);
                        switch (aChar) {
                        case '0':
                        case '1':
                        case '2':
                        case '3':
                        case '4':
                        case '5':
                        case '6':
                        case '7':
                        case '8':
                        case '9':
                            value = (value << 4) + aChar - '0';
                            break;
                        case 'a':
                        case 'b':
                        case 'c':
                        case 'd':
                        case 'e':
                        case 'f':
                            value = (value << 4) + 10 + aChar - 'a';
                            break;
                        case 'A':
                        case 'B':
                        case 'C':
                        case 'D':
                        case 'E':
                        case 'F':
                            value = (value << 4) + 10 + aChar - 'A';
                            break;
                        default:
                            throw new IllegalArgumentException("Malformed   \\uxxxx   encoding.");
                        }
                    }
                    outBuffer.append((char) value);
                } else {
                    if (aChar == 't') aChar = '\t';
                    else if (aChar == 'r') aChar = '\r';
                    else if (aChar == 'n') aChar = '\n';
                    else if (aChar == 'f') aChar = '\f';
                    outBuffer.append(aChar);
                }
            } else outBuffer.append(aChar);
        }
        return outBuffer.toString();
    }

}


码表 Unicode GBK UTF8 示例的更多相关文章

  1. 字符编码-UNICODE,GBK,UTF-8区别【转转】

    字符编码介绍及不同编码区别 今天看到这篇关于字符编码的文章,抑制不住喜悦(总结的好详细)所以转到这里来.转自:祥龙之子http://www.cnblogs.com/cy163/archive/2007 ...

  2. unicode gbk utf-8的差异

    GB2312(1980年)定义,包含6763个汉字,682个字符 GBK1.0 定义了21003个汉字,21886个字符 ASCII->GB2312->GBK 编码方式向后兼容,即同一个字 ...

  3. 码表 ASCII Unicode GBK UTF-8

    2017-1-3 [ASCII]一个字节(7位,128个字符,2个16进制) 不包含中文 ASCII(American Standard Code for Information Interchang ...

  4. UNICODE,GBK,UTF-8区别

    简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式.而前面那三种编码是一兼容的,同一个汉字,那三个码值是完全不一样的.如"汉"的uncode值与g ...

  5. 【JAVA编码专题】UNICODE,GBK,UTF-8区别

    简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式.而前面那三种编码是一兼容的,同一个汉字,那三个码值是完全不一样的.如"汉"的uncode值与g ...

  6. 【JAVA编码专题】UNICODE,GBK,UTF-8区别 分类: B1_JAVA 2015-02-10 21:07 153人阅读 评论(0) 收藏

    简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式.而前面那三种编码是一兼容的,同一个汉字,那三个码值是完全不一样的.如"汉"的uncode值与g ...

  7. Python UNICODE GBK UTF-8 之间相互转换

    Python 编码格式检测,可以使用 chardet , 例如: import urllib rawdata = urllib.urlopen('http://www.google.cn/').rea ...

  8. C# unicode GBK UTF-8和汉字互转

    界面: 源码: using System; using System.Collections.Generic; using System.ComponentModel; using System.Da ...

  9. UTF-8,Unicode,GBK,希腊字母读法,ASCII码表,HTTP错误码,URL编码表,HTML特殊字符,汉字编码简明对照表

    UNICODE,GBK,UTF-8区别 UNICODE,GBK,UTF-8区别    简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式.而前面那 ...

随机推荐

  1. [转贴]Eclipse IDE for c++配置

    从工作到现在已经有快一年多没用过C/C++了,现在想重新捡起来,但是以前一直是在windows下面进行开发,使用最多的是Eclipse和Myeclipse,因为这些都是开源的软件,并不收费,所以现在也 ...

  2. BOM的来源是不可能出现的字符,GB2312双字节高位都是1,Unicode理论的根本缺陷导致UTF8的诞生

    Unicode字符编码规范   http://www.aoxiang.org 2006-4-2 10:48:02Unicode是一种字符编码规范 . 先从ASCII说起.ASCII是用来表示英文字符的 ...

  3. C#判断操作系统类型汇总

    Windows操作系统的版本号一览 操作系统 PlatformID 主版本号 副版本号 Windows95 1 4 0 Windows98 1 4 10 WindowsMe 1 4 90 Window ...

  4. C 语言字符串(译)

    C 语言的 switch 语句非常强大.然而,它不能用字符串作为判断条件,只能用常整数.这是可以理解的,因为 C 的字符串仅仅是数组,它们并不是并不是一个整体. 在某些情况下,将 string 作为 ...

  5. bzoj1197

    水题,画个图推一下低维的就什么都明白了 从低维类推高维 ..,..] of int64; n,m,j,i:longint; begin readln(m,n); to n do f[i,]:=; to ...

  6. 利用spm提供的MoAEpilot听觉数据学习预处理以及单被试glm分析与统计推断

    1.数据介绍 下载:http://www.fil.ion.ucl.ac.uk/spm/data/auditory/ SUBJECT:1 VOLUME: 64*64*64 TR:7s total acq ...

  7. 迷宫城堡--HDOJ 1269(Tarjan)

    迷宫城堡 Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/32768 K (Java/Others)Total Submis ...

  8. 使用VisualStudio进行单元测试之二

    借着工作忙的借口,偷了两天懒,今天继续单元测试之旅.前面说了如何进行一个最简单的单元测试,这次呢就跟大家一起来熟悉一下,在visual studio中如何进行数据驱动的单元测试. 开始之前先来明确一下 ...

  9. Naive and Silly Muggles

    Problem Description Three wizards are doing a experiment. To avoid from bothering, a special magic i ...

  10. 构建CMDB的一些启发

    开篇感言: 自从学习python自动化开发以来,一直都是从技术的角度来看待一切.以为技术就是王道.但显然我是一只井底之蛙.其实技术只不过是实现功能的工具而已,仅此而已.后来学习了解CMDB,越来越发现 ...