Unicode浅析——调用科大讯飞语音合成接口（日语）所遇到的天坑

　　如题，最近做的项目需要调用科大讯飞的语音合成接口，将日文合成日语。然后坑爹的是跟我对接的那一方直接扔过来一份接口文档，里面并未提及日语合成所需要的参数。中文、英文合成倒是没问题，就这个日语合成的音频始终听起来不对。后来对接方说文本需要unicode编码，但具体如何编码他们也不清楚。这回至少有了思路，就拿文本做各种unicode编码。随后试来试去，好歹给试出来了是哪种unicode编码。这次天坑也算是知道了些unicode的皮毛。

　　Unicode，全称Universal Multiple-Octet Coded Character Set，通用多八位编码字符集，它是一套字符集，也是一套编码方案。字符我们知道，比如“中”就是一个字符，那啥是字符编码？字符编码是给计算机识别字符用的。计算机只知道0和1，比如“中”要让计算机表示出来，就必须将它转换为0和1，怎么转的就是字符编码搞定的。既然提到字符编码，离不开字符集，因为字符编码又是通过字符集来实现的。

　　字符集就是字符的集合，比如美国人制定的ASCII字符集包含了256个字符，用来表示英文字母、数字、标点符号、控制符等，而国人则制定了中文字符集GB2312，以及它的进化版GBK、GB18030。那么问题来，ASCII是单字节（8位），撑死了表示256个字符；GB2312、GBK是双字节，虽说能耐大些，也就撑死了表示65536个字符；GB18030已经增加到四字节了，但其他国家怎么办呢？它们不见得乐意用咱们的GB系列，都自立为王搞一套，那就都乱套了。为了能一劳永逸的解决字符集的问题，国际标准组织出手了，它搞出了一套四字节编码的字符集，包罗万象，管你英文还是中文，日文还是韩文，世界上所有语言的字符它大小通吃。

　　Unicode如此霸气侧漏，但我们需要注意一下，它不是一个具体的字符集，而是一套字符集，包括UTF-8、UTF-16、UTF-32等，这些字符集合起来就是一套编码方案。UTF，全称Unicode Transformation Format，如果是以8位（单字节）进行编码，就是UTF-8，同理，以双字节（16位）编码就是UTF-16，四字节就是UTF-32。Unicode的“字符”就是编码点（code point），通常写成 16 进制的形式再加前缀“U+”，例如“中”的编码点是U+4e2d。UTF-32空间开销太多，用的并不多。其实Unicode默认用的是UTF-16。最常用的是 UTF-8 ，它根据不同的字符进行不同的编码，可变的存储为 1 到 4 个字节，空间开销最小。

　　UTF-8单字节不存在字节序列问题，UTF-16、UTF-32就需要注意大小端点问题了。具体用个例子来说明比说一堆废话好理解，比如现在我用UTF-16表示“中”这个字符，因为有两个字节，那么这两个字节哪个先出现呢？大端点的编码点表示是U+4e2d，小端点的编码点则为：U+2d4e。Unicode默认使用一个BOM（Byte Order Mark，字节序列标记）来让计算机识别是大端还是小端，如果是大端则BOM字节码为：U+FEFF，反之小端使用U+FFFE。注意这个BOM是多出来标记，不表示有效字符。综合起来，存在3种表示方法，UTF-16BE（BE，Big Endian，大端点）、UTF-16LE（LE，Little Endian，小端点）和UTF-16（通过BOM识别大小端）。

　　说了这么多，不再废话，直接上代码吧：

import java.io.*;

import java.util.Arrays;

public class UnicodeTest {

    /**

     * 将字节转16进制数组

     *

     * @param bytes

     * @return

     */

    public static String[] toHexArr(byte[] bytes) {

        String[] hexArr = new String[bytes.length];

        for (int i = 0; i < bytes.length; i++) {

            String s = Integer.toHexString(bytes[i]);

            if (s.length() == 1) {

                s = "0" + s;

            }

            s = "0x" + s;

            hexArr[i] = s;

        }

        return hexArr;

    }

    /**

     * 将字节转字码点

     *

     * @param bytes

     * @return

     */

    public static String byteToUnicode(byte[] bytes) {

        StringBuffer out = new StringBuffer();

        //将其byte转换成对应的16进制表示

        for (int i = 0; i < bytes.length - 1; i += 2) {

            out.append("\\u");

            String str = Integer.toHexString(bytes[i + 1] & 0xff);

            for (int j = str.length(); j < 2; j++) {

                out.append("0");

            }

            String str1 = Integer.toHexString(bytes[i] & 0xff);

            out.append(str1);

            out.append(str);

        }

        return out.toString();

    }

    public static void printCode(String s) {

        try {

            System.out.println("字符串编码：");

            byte[] bytes1 = s.getBytes("UNICODE");

            byte[] bytes2 = s.getBytes("UTF-16");

            byte[] bytes3 = s.getBytes("UTF-16BE");

            byte[] bytes4 = s.getBytes("UTF-16LE");

            byte[] bytes5 = s.getBytes("utf-8");

            System.out.println("16进制：");

            System.out.println("unicode : " + Arrays.toString(toHexArr(bytes1)));

            System.out.println("utf-16  : " + Arrays.toString(toHexArr(bytes2)));

            System.out.println("utf-16be: " + Arrays.toString(toHexArr(bytes3)));

            System.out.println("utf-16le：" + Arrays.toString(toHexArr(bytes4)));

            System.out.println("utf-8   ：" + Arrays.toString(toHexArr(bytes5)));

            System.out.println("unicode编码点：");

            System.out.println("unicode : " + byteToUnicode(bytes1));

            System.out.println("utf-16  : " + byteToUnicode(bytes2));

            System.out.println("utf-16be: " + byteToUnicode(bytes3));

            System.out.println("utf-16le：" + byteToUnicode(bytes4));

            System.out.println("utf-8   ：" + byteToUnicode(bytes5));

            System.out.println("字节数组：");

            System.out.println("unicode : " + Arrays.toString(bytes1));

            System.out.println("utf-16  : " + Arrays.toString(bytes2));

            System.out.println("utf-16be: " + Arrays.toString(bytes3));

            System.out.println("utf-16le：" + Arrays.toString(bytes4));

            System.out.println("utf-8   ：" + Arrays.toString(bytes5));

            System.out.println("字符串解码: ");

            System.out.println("unicode : " + new String(bytes1, "unicode"));

            System.out.println("utf-16  : " + new String(bytes2, "utf-16"));

            System.out.println("utf-16be: " + new String(bytes3, "utf-16be"));

            System.out.println("utf-16le：" + new String(bytes4, "utf-16le"));

            System.out.println("utf-8   ：" + new String(bytes5, "utf-8"));

        } catch (UnsupportedEncodingException e) {

            e.printStackTrace();

        }

    }

    public static void main(String[] args) {

        String s = "中华人民共和国";

        String s1 = "おはよう";

        System.out.println("字符串内容：" + s);

        printCode(s);

        System.out.println("字符串内容：" + s1);

        printCode(s1);

    }

}

　　输出：

字符串内容：中华人民共和国

字符串编码：

16进制：

unicode : [0xfffffffe, 0xffffffff, 0x4e, 0x2d, 0x53, 0x4e, 0x4e, 0xffffffba, 0x6c, 0x11, 0x51, 0x71, 0x54, 0xffffff8c, 0x56, 0xfffffffd]

utf-16  : [0xfffffffe, 0xffffffff, 0x4e, 0x2d, 0x53, 0x4e, 0x4e, 0xffffffba, 0x6c, 0x11, 0x51, 0x71, 0x54, 0xffffff8c, 0x56, 0xfffffffd]

utf-16be: [0x4e, 0x2d, 0x53, 0x4e, 0x4e, 0xffffffba, 0x6c, 0x11, 0x51, 0x71, 0x54, 0xffffff8c, 0x56, 0xfffffffd]

utf-16le：[0x2d, 0x4e, 0x4e, 0x53, 0xffffffba, 0x4e, 0x11, 0x6c, 0x71, 0x51, 0xffffff8c, 0x54, 0xfffffffd, 0x56]

utf-8   ：[0xffffffe4, 0xffffffb8, 0xffffffad, 0xffffffe5, 0xffffff8d, 0xffffff8e, 0xffffffe4, 0xffffffba, 0xffffffba, 0xffffffe6, 0xffffffb0, 0xffffff91, 0xffffffe5, 0xffffff85, 0xffffffb1, 0xffffffe5, 0xffffff92, 0xffffff8c, 0xffffffe5, 0xffffff9b, 0xffffffbd]

unicode编码点：

unicode : \ufeff\u4e2d\u534e\u4eba\u6c11\u5171\u548c\u56fd

utf-16  : \ufeff\u4e2d\u534e\u4eba\u6c11\u5171\u548c\u56fd

utf-16be: \u4e2d\u534e\u4eba\u6c11\u5171\u548c\u56fd

utf-16le：\u2d4e\u4e53\uba4e\u116c\u7151\u8c54\ufd56

utf-8   ：\ue4b8\uade5\u8d8e\ue4ba\ubae6\ub091\ue585\ub1e5\u928c\ue59b

字节数组：

unicode : [-2, -1, 78, 45, 83, 78, 78, -70, 108, 17, 81, 113, 84, -116, 86, -3]

utf-16  : [-2, -1, 78, 45, 83, 78, 78, -70, 108, 17, 81, 113, 84, -116, 86, -3]

utf-16be: [78, 45, 83, 78, 78, -70, 108, 17, 81, 113, 84, -116, 86, -3]

utf-16le：[45, 78, 78, 83, -70, 78, 17, 108, 113, 81, -116, 84, -3, 86]

utf-8   ：[-28, -72, -83, -27, -115, -114, -28, -70, -70, -26, -80, -111, -27, -123, -79, -27, -110, -116, -27, -101, -67]

字符串解码:

unicode : 中华人民共和国

utf-16  : 中华人民共和国

utf-16be: 中华人民共和国

utf-16le：中华人民共和国

utf-8   ：中华人民共和国

字符串内容：おはよう

字符串编码：

16进制：

unicode : [0xfffffffe, 0xffffffff, 0x30, 0x4a, 0x30, 0x6f, 0x30, 0xffffff88, 0x30, 0x46]

utf-16  : [0xfffffffe, 0xffffffff, 0x30, 0x4a, 0x30, 0x6f, 0x30, 0xffffff88, 0x30, 0x46]

utf-16be: [0x30, 0x4a, 0x30, 0x6f, 0x30, 0xffffff88, 0x30, 0x46]

utf-16le：[0x4a, 0x30, 0x6f, 0x30, 0xffffff88, 0x30, 0x46, 0x30]

utf-8   ：[0xffffffe3, 0xffffff81, 0xffffff8a, 0xffffffe3, 0xffffff81, 0xffffffaf, 0xffffffe3, 0xffffff82, 0xffffff88, 0xffffffe3, 0xffffff81, 0xffffff86]

unicode编码点：

unicode : \ufeff\u304a\u306f\u3088\u3046

utf-16  : \ufeff\u304a\u306f\u3088\u3046

utf-16be: \u304a\u306f\u3088\u3046

utf-16le：\u4a30\u6f30\u8830\u4630

utf-8   ：\ue381\u8ae3\u81af\ue382\u88e3\u8186

字节数组：

unicode : [-2, -1, 48, 74, 48, 111, 48, -120, 48, 70]

utf-16  : [-2, -1, 48, 74, 48, 111, 48, -120, 48, 70]

utf-16be: [48, 74, 48, 111, 48, -120, 48, 70]

utf-16le：[74, 48, 111, 48, -120, 48, 70, 48]

utf-8   ：[-29, -127, -118, -29, -127, -81, -29, -126, -120, -29, -127, -122]

字符串解码:

unicode : おはよう

utf-16  : おはよう

utf-16be: おはよう

utf-16le：おはよう

utf-8   ：おはよう

Unicode浅析——调用科大讯飞语音合成接口（日语）所遇到的天坑的更多相关文章

Python实战---制作专属有声小说（调用百度语音合成接口）
这一次的目标是使用百度云的人工智能接口,实现文字转语音的实时转换,将小说文字转换成语音朗读出来. 百度云接口调用百度的这个接口对于我们普通用户非常友好,他的很多功能都是免费的,而且我们每天可以免费调 ...
科大讯飞语音合成系统 V5.0绿色便携版
中文名: 中科大讯飞Interphonic 5.0语音合成系统英文名: Interphonic 5.0版本: 5.0发行时间: 2006年制作发行: 中科大讯飞语言: 简体中文系统简介InterPho ...
C#将科大讯飞语音合成文件转换为MULAW音频格式
任务描述:通过科大讯飞语音合成组件在线完成文本转语音的合成,然后再转换为电话系统IVR要求的音频格式: wave mu-law 16位 8kHZ 64kbps. 完成步骤: 首先,我们要先通过科大讯飞 ...
python调用支付宝支付接口
python调用支付宝支付接口详细示例—附带Django demo代码项目演示: 一.输入金额二.跳转到支付宝付款三.支付成功四.跳转回自己网站在使用支付宝接口的前期准备: 1.支付宝公 ...
java调用CXF WebService接口的两种方式
通过http://localhost:7002/card/services/HelloWorld?wsdl访问到xml如下,说明接口写对了. 2.静态调用 // 创建WebService客户端代理工厂 ...
java获取https网站证书，附带调用https:webservice接口
一.java 获取https网站证书: 1.创建一个java工程,新建InstallCert类,将以下代码复制进去 package com; import java.io.BufferedReader ...
asp.net mvc 如何调用微信jssdk接口：分享到微信朋友（圈）| 分享到qq空间
如何在asp.net mvc 项目里, 调用微信jssdk接口,现实功能: 分享到微信朋友(圈)| 分享到qq空间 1 创建一个Action,准备一些数据,初始化数据(签名): /// <sum ...
关于微信网页调用js-sdk相关接口注意事项目（一级域名与二级域名互相干扰！！！）
不知道有没有网友遇到过同一个web应用用不同的域名(一级或二级域名)在两个公众号中调用JSSDK相关接口实现功能, 这种做法本来没有问题,问题在于用二级域名(同属一级域名下的二级域名)绑定另一个web ...
JS调用腾讯接口获取天气
想做个直接通过JS获取某个城市的天气.本来想通过直接调用中国气象网的接口: http://www.weather.com.cn/weather/101070201.shtml,但是跨域问题一直无法解决 ...

随机推荐

Google的三大马车
Google的三大马车Google fs + Map Reduce + Big Table 开源Java实现HDFS Hadoop Hbase 云盘实现用廉价的服务器提供与万级的数据库存储①廉价的服务 ...
mysql查询某一列的数据最大字节
语法:select 列名, length(列名) from 表名where length(列名) = ( select max(length(列名)) from 表名); 实例:select proj ...
VSCode之使用Settings Sync同步配置和插件
需求背景自己平常工作,一般在公司用公司的电脑,在家里就是自己的,但是vscode如果配置了新的内容,或者安装了新的插件,那每次都需要单独记录一下然后再重新配置一遍.使用Settings Sync插件 ...
VS Code Monokai Pro验证
最新的VS Code Monokai Pro激活方式需要vscode,并且安装了monokai pro插件进入目录 Mac OS cd -/.vscode/extensions/monokai.t ...
idea中tomcat的On Upate Action 与 On Frame Deactivation配置
On Upate Action 与 On Frame Deactivation 这两个选项的设置,依赖于项目的部署方式是war包还是 exploded , 只讲exploded模式下的设置,因为 ...
复杂json后端解析出现第二层无数据的问题
自从使用了lombok之后写代码更加爽了但是突然遇到前端小姐姐传的对象中的数组后端接收不到,查了好长时间无果后就搁置了. 今天突然想找找什么原因.自己写了一个测试的案例,经过测试过后发现是lombo ...
Selenium（十二）嵌套frame定位
第一种:iframe有id.name属性网页上有3个frame:header.menu.main,分别代码顶部.左侧.右侧(其中menu.main在另外一个frameset中) 如何定位到“head ...
ping 原理与ICMP协议
ping 的原理 ping 程序是用来探测主机到主机之间是否可通信,如果不能ping到某台主机,表明不能和这台主机建立连接.ping 使用的是ICMP协议,它发送icmp回送请求消息给目的主机 ...
mali tbr Forward Pixel Kill
https://community.arm.com/cfs-file/__key/communityserver-blogs-components-weblogfiles/00-00-00-20-66 ...
[Angular 8] Calculate and Measure Performance budgets with the Angular CLI
Measuring is extremely important, without numbers we don’t know about potential problems and we don’ ...

Unicode浅析——调用科大讯飞语音合成接口（日语）所遇到的天坑

Unicode浅析——调用科大讯飞语音合成接口（日语）所遇到的天坑的更多相关文章

随机推荐

热门专题