Unicode的编码形式与对应的字符串相互转换

/**
 * Unicode的编码形式与对应的字符串相互转换
 * @author 白乾涛
 */
public class UnicodeUtils {
    public static void main(String[] args) throws UnsupportedEncodingException {
        test1();
        test2();
        //服务器返回的很可能是这种形式的字符串
        String unicodeMessages = "{\"code\":200,\"message\":\"\\u4fdd\\u5b58\\u6210\\u529f\"}";//所有的引号和反斜杠前面都要加一个反斜杠
        System.out.println(unicodeToString(unicodeMessages) + "\n");//{"code":200,"message":"保存成功"}
    }

    private static void test1() {
        System.out.println("【汉】的Unicode编码为【" + toUnicodeString('汉') + "】");//【汉】的Unicode编码为【\u6c49】
        System.out.println("【\\u6c49】对应的字符为【" + unicodeToString("\u6c49") + "】");//【\u6c49】对应的字符为【汉】
        System.out.println("\u6c49");//会自动解码【汉】
        System.out.println(0x9FFF - 0x3000 + "\n");//【28671】
    }

    private static void test2() {
        String string = "aA1:中国";
        String unicode = toUnicodeString(string);
        System.out.println("【" + string + "】的Unicode编码为【" + unicode + "】");//【\u0061\u0041\u0031\u003a\u4e2d\u56fd】
        System.out.println(unicodeToString(unicode));//【aA1:中国】
        for (int i = 0; i < unicode.length(); i += 6) {
            System.out.print(unicode.substring(i, i + 6));//并不会解码，只是把Unicode编码形式的字符串打印出来，为什么呢？
        }
        System.out.println("\n" + unicode);//同样，这里也不会解码。【\u0061\u0041\u0031\u003a\u4e2d\u56fd】
    }

    /**
     * 将【字符】转换成Unicode码形式【Unicode用两个字节来编码一个字符，2^16=16^4，所以可以用四个16进制数表示】
     */
    public static String toUnicodeString(char c) {
        StringBuilder sb = new StringBuilder("");
        String hexString = Integer.toHexString(c);
        sb.append("\\u");//用于标识这是一个Unicode码
        for (int j = hexString.length(); j < 4; j++) {
            sb.append(0);//不足四位用0填充
        }
        sb.append(hexString);
        return sb.toString();
    }

    /**
     * 将【字符串】转换成Unicode码形式
     */
    public static String toUnicodeString(String string) {
        StringBuilder sb = new StringBuilder("");
        for (int i = 0; i < string.length(); i++) {
            sb.append(toUnicodeString(string.charAt(i)));
        }
        return sb.toString();
    }

    /**
     * 将Unicode编码解析成字符串形式
     */
    public static String unicodeToString(String uString) {
        StringBuilder sb = new StringBuilder();
        int i = -1, pos = 0;
        while ((i = uString.indexOf("\\u", pos)) != -1) {
            sb.append(uString.substring(pos, i));
            if (i + 5 < uString.length()) {
                pos = i + 6;
                sb.append((char) Integer.parseInt(uString.substring(i + 2, i + 6), 16));
            }
        }
        sb.append(uString.substring(pos));
        return sb.toString();
    }

}

字符串编码格式转换

/**

* 字符串编码格式转换

* @author 白乾涛

public class CodeUtils {

public static void main(String[] args) {

String string = "aA.1字符串编码格式转换";

System.out.println(gbk2Unicode(string));

System.out.println(gbk2utf8(string));

System.out.println(utf2gbk(string));

System.out.println(utf2Unicode(string));

System.out.println(unicode2GBK(string));

System.out.println(unicode2Utf8(string));

}

/**

* GBK转UTF8

* @param gbk GBK编码格式的字符串

* @return UTF8编码格式的字符串

public static String gbk2utf8(String gbk) {

String l_temp = gbk2Unicode(gbk);

l_temp = unicode2Utf8(l_temp);

return l_temp;

}

/**

* UTF8转GBK

* @param utf UTF8编码格式的字符串

* @return GBK编码格式的字符串

public static String utf2gbk(String utf) {

String l_temp = utf2Unicode(utf);

l_temp = unicode2GBK(l_temp);

return l_temp;

}

/**

*GBK转Unicode

* @param str GBK编码格式的字符串

* @return String Unicode编码格式的字符串

public static String gbk2Unicode(String str) {

StringBuffer result = new StringBuffer();

for (int i = 0; i < str.length(); i++) {

char chr1 = (char) str.charAt(i);

if ((chr1 & (0x00FF)) == chr1) {

result.append(chr1);

continue;

}

result.append("\\u" + Integer.toHexString((int) chr1));

}

return result.toString();

}

/**

*Unicode转GBK

* @param dataStr Unicode编码格式的字符串

* @return String GBK编码格式的字符串

public static String unicode2GBK(String dataStr) {

int index = 0;

StringBuffer buffer = new StringBuffer();

int li_len = dataStr.length();

while (index < li_len) {

if (index >= li_len - 1 || !"\\u".equals(dataStr.substring(index, index + 2))) {

buffer.append(dataStr.charAt(index));

index++;

continue;

}

String charStr = "";

charStr = dataStr.substring(index + 2, index + 6);

char letter = (char) Integer.parseInt(charStr, 16);

buffer.append(letter);

index += 6;

}

return buffer.toString();

}

/**

* UTF8转Unicode

* @param inStr UTF8编码格式的字符串

* @return Unicode编码格式的字符串

public static String utf2Unicode(String inStr) {

char[] myBuffer = inStr.toCharArray();

StringBuffer sb = new StringBuffer();

for (int i = 0; i < inStr.length(); i++) {

UnicodeBlock ub = UnicodeBlock.of(myBuffer[i]);

if (ub == UnicodeBlock.BASIC_LATIN) {

sb.append(myBuffer[i]);

} else if (ub == UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS) {

int j = (int) myBuffer[i] - 65248;

sb.append((char) j);

} else {

short s = (short) myBuffer[i];

String hexS = Integer.toHexString(s);

String unicode = "\\u" + hexS;

sb.append(unicode.toLowerCase());

}

return sb.toString();

}

/**

*Unicode转UTF8

* @param theString Unicode编码格式的字符串

* @return String UTF8编码格式的字符串

public static String unicode2Utf8(String theString) {

char aChar;

int len = theString.length();

StringBuffer outBuffer = new StringBuffer(len);

for (int x = 0; x < len;) {

aChar = theString.charAt(x++);

if (aChar == '\\') {

aChar = theString.charAt(x++);

if (aChar == 'u') {

// Read the xxxx

int value = 0;

for (int i = 0; i < 4; i++) {

aChar = theString.charAt(x++);

switch (aChar) {

case '0':

case '1':

case '2':

case '3':

case '4':

case '5':

case '6':

case '7':

case '8':

case '9':

value = (value << 4) + aChar - '0';

break;

case 'a':

case 'b':

case 'c':

case 'd':

case 'e':

case 'f':

value = (value << 4) + 10 + aChar - 'a';

break;

case 'A':

case 'B':

case 'C':

case 'D':

case 'E':

case 'F':

value = (value << 4) + 10 + aChar - 'A';

break;

default:

throw new IllegalArgumentException("Malformed \\uxxxx encoding.");

}

outBuffer.append((char) value);

} else {

if (aChar == 't') aChar = '\t';

else if (aChar == 'r') aChar = '\r';

else if (aChar == 'n') aChar = '\n';

else if (aChar == 'f') aChar = '\f';

outBuffer.append(aChar);

}

} else outBuffer.append(aChar);

}

return outBuffer.toString();

}

null

码表 Unicode GBK UTF8 示例的更多相关文章

字符编码-UNICODE,GBK,UTF-8区别【转转】
字符编码介绍及不同编码区别今天看到这篇关于字符编码的文章,抑制不住喜悦(总结的好详细)所以转到这里来.转自:祥龙之子http://www.cnblogs.com/cy163/archive/2007 ...
unicode gbk utf-8的差异
GB2312(1980年)定义,包含6763个汉字,682个字符 GBK1.0 定义了21003个汉字,21886个字符 ASCII->GB2312->GBK 编码方式向后兼容,即同一个字 ...
码表 ASCII Unicode GBK UTF-8
2017-1-3 [ASCII]一个字节(7位,128个字符,2个16进制) 不包含中文 ASCII(American Standard Code for Information Interchang ...
UNICODE,GBK,UTF-8区别
简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式．而前面那三种编码是一兼容的,同一个汉字,那三个码值是完全不一样的．如＂汉＂的uncode值与g ...
【JAVA编码专题】UNICODE,GBK,UTF-8区别
简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式．而前面那三种编码是一兼容的,同一个汉字,那三个码值是完全不一样的．如＂汉＂的uncode值与g ...
【JAVA编码专题】UNICODE,GBK,UTF-8区别分类： B1_JAVA 2015-02-10 21:07 153人阅读评论(0) 收藏
简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式．而前面那三种编码是一兼容的,同一个汉字,那三个码值是完全不一样的．如＂汉＂的uncode值与g ...
Python UNICODE GBK UTF-8 之间相互转换
Python 编码格式检测,可以使用 chardet , 例如: import urllib rawdata = urllib.urlopen('http://www.google.cn/').rea ...
C# unicode GBK UTF-8和汉字互转
界面: 源码: using System; using System.Collections.Generic; using System.ComponentModel; using System.Da ...
UTF-8,Unicode,GBK,希腊字母读法,ASCII码表,HTTP错误码,URL编码表,HTML特殊字符,汉字编码简明对照表
UNICODE,GBK,UTF-8区别 UNICODE,GBK,UTF-8区别简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式．而前面那 ...

随机推荐

QWidget与HWND的互相转换
QWidget与HWND的互相转换在编写Windows的应用程序时,我们有时不可避免地要与Windows平台固有的Win32 API打交道,但是Win32 API里面常常用到的HWND等诸多句柄QT ...
linux和windows双系统导致的时间日
我的博客:www.while0.com系统中有两种时间区分,一为UTC,另一为LT(地方时)两者的区别为时区不同,UTC就是0时区的时间,而我们当地是用的北京时间要慢8小时.linux采用的UTC时间 ...
【HDOJ】3560 Graph’s Cycle Component
并查集的路径压缩. #include <stdio.h> #include <string.h> #define MAXNUM 100005 int deg[MAXNUM], ...
新一批电子商务解决方案和企业管理应用加入 VM Depot 中国站点
新一批电子商务解决方案和企业管理应用加入 VM Depot 中国站点. //电子商务平台助力您建设网店// 大约有 6 个最近更新的电子商务程序包已经登陆 VM Depot. 这不仅囊括了全球知 ...
Linux内存调试工具初探-MEMWATCH
C 语言作为 Linux 系统上标准的编程语言给予了我们对动态内存分配很大的控制权.这种自由可能会导致严重的内存管理问题,可能导致程序崩溃或随时间的推移导致性能降级. 内存泄漏(即 malloc() ...
正则表达式，用于Delphi
表示不能为空 : [^\s]+ 只能输入数字和字母: ^[A-Za-z0-9]+$
webbrowser控件事件
Beforenavigate2: Fired before navigate occurs in the given WebBrowser(window or frameset element). T ...
Ubuntu配置Android编译环境
1.Ubuntu安装 VMware安装ubuntu之后,安装Vmware tools: 1.安装完ubuntu后,VMware Workstation菜单:虚拟机-->安装 Vmware Too ...
java获取天气预报的信息
运行效果: 主要功能: 1,jsp页面输入省份和城市根据条件获取当地的天气信息 2,java代码利用第三方的省份和城市的路径地址本工程主要实现java获取天气预报的信息步骤1,创建工程weath ...
JavaScript---网络编程(6)-Dom和Bom模型概念讲解(节点获取,window对象)
本节讲Dom和Bom模型概念讲解(节点获取,window对象). out.js: 写了2个输出到页面的函数. function println(param){ document.write(param ...

码表 Unicode GBK UTF8 示例

Unicode的编码形式与对应的字符串相互转换

字符串编码格式转换

码表 Unicode GBK UTF8 示例的更多相关文章

随机推荐

热门专题