JAVA中文字符串编码--GBK转UTF-8

转载自：https://www.cnblogs.com/yoyotl/p/5979200.html

一、乱码的原因

gbk的中文编码是一个汉字用【2】个字节表示，例如汉字“内部”的gbk编码16进制的显示为c4 da b2 bf

utf-8的中文编码是一个汉字用【3】个字节表示，例如汉字“内部”的utf-8编码16进制的显示为e5 86 85 e9 83 a8

很显然，gbk是无法直接转换成utf-8，少字节变为多字节，谁知道缺少的字节是什么啊？！

转换的办法

有办法实现“有损”转换吗？答案是肯定的。

1.首先将gbk字符串getBytes()得到两个原始字节，转换成二进制字符流，共16位。

2.根据UTF-8的汉字编码规则，首字节以1110开头，次字节以10开头，第3字节以10开头。在原始的2进制字符串中插入标志位。最终的长度从16--->16+4+2+2=24。

3.转换完成，实际情况需要考虑更多因素，例如字符串是汉字和数字的混合体，需要识别处理数字。

public void entityTest(){
    try {
        byte[] str = "支持™".getBytes("gbk");
        String gbkStr = new String(str, "gbk");
        System.out.println(new String(getUTF8BytesFromGBKString(gbkStr),"UTF-8"));
    } catch (UnsupportedEncodingException e) {
        e.printStackTrace();
    }
}

public static byte[] getUTF8BytesFromGBKString(String gbkStr) {
    int n = gbkStr.length();
    byte[] utfBytes = new byte[3 * n];
    int k = 0;
    for (int i = 0; i < n; i++) {
        int m = gbkStr.charAt(i);
        if (m < 128 && m >= 0) {
            utfBytes[k++] = (byte) m;
            continue;
        }
        utfBytes[k++] = (byte) (0xe0 | (m >> 12));
        utfBytes[k++] = (byte) (0x80 | ((m >> 6) & 0x3f));
        utfBytes[k++] = (byte) (0x80 | (m & 0x3f));
    }
    if (k < utfBytes.length) {
        byte[] tmp = new byte[k];
        System.arraycopy(utfBytes, 0, tmp, 0, k);
        return tmp;
    }
    return utfBytes;
}

但在这里还是有个问题是"支持™"字符串中"™"的字符由于在GBK中不存在，那么在byte[] str = "支持™".getBytes("gbk");的时候"™"字符就已经乱码了，最后导致转码也乱码。GBK还有很多不支持的特殊字符。

GBK字符编码表：https://www.qqxiuzi.cn/zh/hanzi-gbk-bianma.php

JAVA中文字符串编码--GBK转UTF-8的更多相关文章

Java 中文字符串编码之GBK转UTF-8
写过两篇关于编码的文章了,以为自己比较了解编码了呢?! 结果今天又结结实实的上了一课. 以前转来转去解决的问题终归还是简单的情形.即iso-8859-1转utf-8,或者iso-8859-1转gbk, ...
java中字符串编码转换
Java 正确的做字符串编码转换字符串的内部表示? 字符串在java中统一用unicode表示( 即utf-16 LE) , 对于 String s = "你好哦!"; 如果源码 ...
java设置字符串编码、转码
Unicode(统一码.万国码.单一码)是计算机科学领域里的一项业界标准,包括字符集.编码方案等.Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一 ...
python中文字符串编码问题
接口测试的时候,发现接口返回内容是uncodie类型但是包含中文.在使用print进行打印时输出提示错误: UnicodeEncodeError: 'ascii' codec can't encode ...
一文解开java中字符串编码的小秘密
目录简介 Unicode的发展史 Unicode详解 UTF-8 UTF-16 UTF-32 Null-terminated string 和变种UTF-8 简介在本文中你将了解到Unicode和 ...
java String字符串编码类型转换
/** * 前后端数据乱码问题 * 解决办法1: * 乱码原因:一编一解码型不一致导致. * [main description] * @param {[type]} String[] args [d ...
java获取字符串编码和转换字符串编码
public class EncodingUtil { // 这里可以提供更多地编码格式,另外由于部分编码格式是一致的所以会返回第一个匹配的编码格式 GBK 和 GB2312 public stat ...
PHP中文字符串编码转换
2016年2月26日 16:47:13 星期五情景: PHP从csv导入数据时乱码 $name = mb_convert_encoding($name, 'UTF-8', 'ASCII,GBK,GB ...
java 判断字符串编码
String iso8859 = new String(sb.toString().getBytes("iso8859-1"));String gbk = new String(s ...

随机推荐

Vue中如何将数据传递到下一个页面（超级简单哒）
先展示效果:注意URL中值是有变化的一:在goodslist.vue文件夹绑定 <router-link :to="'/goodsinfo/'+subitem.artID" ...
gedit配置
编辑 $\rightarrow$ 首选项 $\rightarrow$ 插件 $\rightarrow$ 外部工具启用进入工具 $\rightarrow$ Manage Extern ...
2019湘潭校赛 E（答案区间维护）
题目传送思路是始终维护西瓜数量的区间,即L代表目前可以达到的最少的,R是最多的,然后判断一下. #include <bits/stdc++.h> using namespace std; ...
Codeforces Round #431 (Div. 2) C
From beginning till end, this message has been waiting to be conveyed. For a given unordered multise ...
window.addeventlistener使用方法
http://www.jb51.net/article/49858.htm .................................................... (要注意的是div ...
ASP.NET Core 2.0 源代码
ASP.NET Core 2.0 源代码在Visual Studio 2017中可以通过符号以及源链接,非常方便对 ASP.NET Core 2.0中源代码进行调试.在这篇文章中,我们将重点介绍如何 ...
python 7 dict和set
dict Python内置了字典:dict的支持,dict全称dictionary,在其他语言中也称为map,使用键-值(key-value)存储,具有极快的查找速度. 举个例子,假设要根据同学的名字 ...
前端js编码
1.首先是encodeURI和encodeURIComponent: 从名字可以清晰的看出他两都是主要用于url编码的,那之间有什么区别呢?唯一区别就是编码的字符范围,其中 encodeURI方法不会 ...
《javascript设计模式》笔记之第八章：桥接模式
个人理解:桥接模式就是更进一步地封装已有api,通过这个封装连接你的输入和底层api(初步理解,以后加深理解有不同体会之后可能要修改) 一:示例:事件监听器下面这个示例就演示了通过一座桥(也就是一个 ...
ECharts3.0介绍、入门
ECharts 特性介绍 ECharts,一个纯 Javascript 的图表库,可以流畅的运行在 PC 和移动设备上,兼容当前绝大部分浏览器(IE8/9/10/11,Chrome,Firefox,S ...

JAVA中文字符串编码--GBK转UTF-8

转换的办法

JAVA中文字符串编码--GBK转UTF-8的更多相关文章

随机推荐

热门专题