如题,最近做的项目需要调用科大讯飞的语音合成接口,将日文合成日语。然后坑爹的是跟我对接的那一方直接扔过来一份接口文档,里面并未提及日语合成所需要的参数。中文、英文合成倒是没问题,就这个日语合成的音频始终听起来不对。后来对接方说文本需要unicode编码,但具体如何编码他们也不清楚。这回至少有了思路,就拿文本做各种unicode编码。随后试来试去,好歹给试出来了是哪种unicode编码。这次天坑也算是知道了些unicode的皮毛。

  Unicode,全称Universal Multiple-Octet Coded Character Set,通用多八位编码字符集,它是一套字符集,也是一套编码方案。字符我们知道,比如“中”就是一个字符,那啥是字符编码?字符编码是给计算机识别字符用的。计算机只知道0和1,比如“中”要让计算机表示出来,就必须将它转换为0和1,怎么转的就是字符编码搞定的。既然提到字符编码,离不开字符集,因为字符编码又是通过字符集来实现的。

  字符集就是字符的集合,比如美国人制定的ASCII字符集包含了256个字符,用来表示英文字母、数字、标点符号、控制符等,而国人则制定了中文字符集GB2312,以及它的进化版GBK、GB18030。那么问题来,ASCII是单字节(8位),撑死了表示256个字符;GB2312、GBK是双字节,虽说能耐大些,也就撑死了表示65536个字符;GB18030已经增加到四字节了,但其他国家怎么办呢?它们不见得乐意用咱们的GB系列,都自立为王搞一套,那就都乱套了。为了能一劳永逸的解决字符集的问题,国际标准组织出手了,它搞出了一套四字节编码的字符集,包罗万象,管你英文还是中文,日文还是韩文,世界上所有语言的字符它大小通吃。

  Unicode如此霸气侧漏,但我们需要注意一下,它不是一个具体的字符集,而是一套字符集,包括UTF-8、UTF-16、UTF-32等,这些字符集合起来就是一套编码方案。UTF,全称Unicode Transformation Format,如果是以8位(单字节)进行编码,就是UTF-8,同理,以双字节(16位)编码就是UTF-16,四字节就是UTF-32。Unicode的“字符”就是编码点(code point),通常写成 16 进制的形式再加前缀“U+”,例如“中”的编码点是U+4e2d。UTF-32空间开销太多,用的并不多。其实Unicode默认用的是UTF-16。最常用的是 UTF-8 ,它根据不同的字符进行不同的编码,可变的存储为 1 到 4 个字节,空间开销最小。

  UTF-8单字节不存在字节序列问题,UTF-16、UTF-32就需要注意大小端点问题了。具体用个例子来说明比说一堆废话好理解,比如现在我用UTF-16表示“中”这个字符,因为有两个字节,那么这两个字节哪个先出现呢?大端点的编码点表示是U+4e2d,小端点的编码点则为:U+2d4e。Unicode默认使用一个BOM(Byte Order Mark,字节序列标记 )来让计算机识别是大端还是小端,如果是大端则BOM字节码为:U+FEFF,反之小端使用U+FFFE。注意这个BOM是多出来标记,不表示有效字符。综合起来,存在3种表示方法,UTF-16BE(BE,Big Endian,大端点)、UTF-16LE(LE,Little Endian,小端点)和UTF-16(通过BOM识别大小端)。

  说了这么多,不再废话,直接上代码吧:

import java.io.*;
import java.util.Arrays; public class UnicodeTest { /**
* 将字节转16进制数组
*
* @param bytes
* @return
*/
public static String[] toHexArr(byte[] bytes) {
String[] hexArr = new String[bytes.length];
for (int i = 0; i < bytes.length; i++) {
String s = Integer.toHexString(bytes[i]);
if (s.length() == 1) {
s = "0" + s;
}
s = "0x" + s;
hexArr[i] = s;
}
return hexArr;
} /**
* 将字节转字码点
*
* @param bytes
* @return
*/
public static String byteToUnicode(byte[] bytes) {
StringBuffer out = new StringBuffer(); //将其byte转换成对应的16进制表示
for (int i = 0; i < bytes.length - 1; i += 2) {
out.append("\\u");
String str = Integer.toHexString(bytes[i + 1] & 0xff);
for (int j = str.length(); j < 2; j++) {
out.append("0");
}
String str1 = Integer.toHexString(bytes[i] & 0xff);
out.append(str1);
out.append(str);
}
return out.toString(); } public static void printCode(String s) {
try {
System.out.println("字符串编码:");
byte[] bytes1 = s.getBytes("UNICODE");
byte[] bytes2 = s.getBytes("UTF-16");
byte[] bytes3 = s.getBytes("UTF-16BE");
byte[] bytes4 = s.getBytes("UTF-16LE");
byte[] bytes5 = s.getBytes("utf-8"); System.out.println("16进制:");
System.out.println("unicode : " + Arrays.toString(toHexArr(bytes1)));
System.out.println("utf-16 : " + Arrays.toString(toHexArr(bytes2)));
System.out.println("utf-16be: " + Arrays.toString(toHexArr(bytes3)));
System.out.println("utf-16le:" + Arrays.toString(toHexArr(bytes4)));
System.out.println("utf-8 :" + Arrays.toString(toHexArr(bytes5))); System.out.println("unicode编码点:");
System.out.println("unicode : " + byteToUnicode(bytes1));
System.out.println("utf-16 : " + byteToUnicode(bytes2));
System.out.println("utf-16be: " + byteToUnicode(bytes3));
System.out.println("utf-16le:" + byteToUnicode(bytes4));
System.out.println("utf-8 :" + byteToUnicode(bytes5)); System.out.println("字节数组:");
System.out.println("unicode : " + Arrays.toString(bytes1));
System.out.println("utf-16 : " + Arrays.toString(bytes2));
System.out.println("utf-16be: " + Arrays.toString(bytes3));
System.out.println("utf-16le:" + Arrays.toString(bytes4));
System.out.println("utf-8 :" + Arrays.toString(bytes5)); System.out.println("字符串解码: ");
System.out.println("unicode : " + new String(bytes1, "unicode"));
System.out.println("utf-16 : " + new String(bytes2, "utf-16"));
System.out.println("utf-16be: " + new String(bytes3, "utf-16be"));
System.out.println("utf-16le:" + new String(bytes4, "utf-16le"));
System.out.println("utf-8 :" + new String(bytes5, "utf-8")); } catch (UnsupportedEncodingException e) {
e.printStackTrace();
} } public static void main(String[] args) {
String s = "中华人民共和国";
String s1 = "おはよう";
System.out.println("字符串内容:" + s);
printCode(s);
System.out.println("字符串内容:" + s1);
printCode(s1);
}
}

  输出:

字符串内容:中华人民共和国
字符串编码:
16进制:
unicode : [0xfffffffe, 0xffffffff, 0x4e, 0x2d, 0x53, 0x4e, 0x4e, 0xffffffba, 0x6c, 0x11, 0x51, 0x71, 0x54, 0xffffff8c, 0x56, 0xfffffffd]
utf-16 : [0xfffffffe, 0xffffffff, 0x4e, 0x2d, 0x53, 0x4e, 0x4e, 0xffffffba, 0x6c, 0x11, 0x51, 0x71, 0x54, 0xffffff8c, 0x56, 0xfffffffd]
utf-16be: [0x4e, 0x2d, 0x53, 0x4e, 0x4e, 0xffffffba, 0x6c, 0x11, 0x51, 0x71, 0x54, 0xffffff8c, 0x56, 0xfffffffd]
utf-16le:[0x2d, 0x4e, 0x4e, 0x53, 0xffffffba, 0x4e, 0x11, 0x6c, 0x71, 0x51, 0xffffff8c, 0x54, 0xfffffffd, 0x56]
utf-8 :[0xffffffe4, 0xffffffb8, 0xffffffad, 0xffffffe5, 0xffffff8d, 0xffffff8e, 0xffffffe4, 0xffffffba, 0xffffffba, 0xffffffe6, 0xffffffb0, 0xffffff91, 0xffffffe5, 0xffffff85, 0xffffffb1, 0xffffffe5, 0xffffff92, 0xffffff8c, 0xffffffe5, 0xffffff9b, 0xffffffbd]
unicode编码点:
unicode : \ufeff\u4e2d\u534e\u4eba\u6c11\u5171\u548c\u56fd
utf-16 : \ufeff\u4e2d\u534e\u4eba\u6c11\u5171\u548c\u56fd
utf-16be: \u4e2d\u534e\u4eba\u6c11\u5171\u548c\u56fd
utf-16le:\u2d4e\u4e53\uba4e\u116c\u7151\u8c54\ufd56
utf-8 :\ue4b8\uade5\u8d8e\ue4ba\ubae6\ub091\ue585\ub1e5\u928c\ue59b
字节数组:
unicode : [-2, -1, 78, 45, 83, 78, 78, -70, 108, 17, 81, 113, 84, -116, 86, -3]
utf-16 : [-2, -1, 78, 45, 83, 78, 78, -70, 108, 17, 81, 113, 84, -116, 86, -3]
utf-16be: [78, 45, 83, 78, 78, -70, 108, 17, 81, 113, 84, -116, 86, -3]
utf-16le:[45, 78, 78, 83, -70, 78, 17, 108, 113, 81, -116, 84, -3, 86]
utf-8 :[-28, -72, -83, -27, -115, -114, -28, -70, -70, -26, -80, -111, -27, -123, -79, -27, -110, -116, -27, -101, -67]
字符串解码:
unicode : 中华人民共和国
utf-16 : 中华人民共和国
utf-16be: 中华人民共和国
utf-16le:中华人民共和国
utf-8 :中华人民共和国
字符串内容:おはよう
字符串编码:
16进制:
unicode : [0xfffffffe, 0xffffffff, 0x30, 0x4a, 0x30, 0x6f, 0x30, 0xffffff88, 0x30, 0x46]
utf-16 : [0xfffffffe, 0xffffffff, 0x30, 0x4a, 0x30, 0x6f, 0x30, 0xffffff88, 0x30, 0x46]
utf-16be: [0x30, 0x4a, 0x30, 0x6f, 0x30, 0xffffff88, 0x30, 0x46]
utf-16le:[0x4a, 0x30, 0x6f, 0x30, 0xffffff88, 0x30, 0x46, 0x30]
utf-8 :[0xffffffe3, 0xffffff81, 0xffffff8a, 0xffffffe3, 0xffffff81, 0xffffffaf, 0xffffffe3, 0xffffff82, 0xffffff88, 0xffffffe3, 0xffffff81, 0xffffff86]
unicode编码点:
unicode : \ufeff\u304a\u306f\u3088\u3046
utf-16 : \ufeff\u304a\u306f\u3088\u3046
utf-16be: \u304a\u306f\u3088\u3046
utf-16le:\u4a30\u6f30\u8830\u4630
utf-8 :\ue381\u8ae3\u81af\ue382\u88e3\u8186
字节数组:
unicode : [-2, -1, 48, 74, 48, 111, 48, -120, 48, 70]
utf-16 : [-2, -1, 48, 74, 48, 111, 48, -120, 48, 70]
utf-16be: [48, 74, 48, 111, 48, -120, 48, 70]
utf-16le:[74, 48, 111, 48, -120, 48, 70, 48]
utf-8 :[-29, -127, -118, -29, -127, -81, -29, -126, -120, -29, -127, -122]
字符串解码:
unicode : おはよう
utf-16 : おはよう
utf-16be: おはよう
utf-16le:おはよう
utf-8 :おはよう

Unicode浅析——调用科大讯飞语音合成接口(日语)所遇到的天坑的更多相关文章

  1. Python实战---制作专属有声小说(调用百度语音合成接口)

    这一次的目标是使用百度云的人工智能接口,实现文字转语音的实时转换,将小说文字转换成语音朗读出来. 百度云接口调用 百度的这个接口对于我们普通用户非常友好,他的很多功能都是免费的,而且我们每天可以免费调 ...

  2. 科大讯飞语音合成系统 V5.0绿色便携版

    中文名: 中科大讯飞Interphonic 5.0语音合成系统英文名: Interphonic 5.0版本: 5.0发行时间: 2006年制作发行: 中科大讯飞语言: 简体中文系统简介InterPho ...

  3. C#将科大讯飞语音合成文件转换为MULAW音频格式

    任务描述:通过科大讯飞语音合成组件在线完成文本转语音的合成,然后再转换为电话系统IVR要求的音频格式: wave mu-law 16位 8kHZ 64kbps. 完成步骤: 首先,我们要先通过科大讯飞 ...

  4. python调用支付宝支付接口

    python调用支付宝支付接口详细示例—附带Django demo代码   项目演示: 一.输入金额 二.跳转到支付宝付款 三.支付成功 四.跳转回自己网站 在使用支付宝接口的前期准备: 1.支付宝公 ...

  5. java调用CXF WebService接口的两种方式

    通过http://localhost:7002/card/services/HelloWorld?wsdl访问到xml如下,说明接口写对了. 2.静态调用 // 创建WebService客户端代理工厂 ...

  6. java获取https网站证书,附带调用https:webservice接口

    一.java 获取https网站证书: 1.创建一个java工程,新建InstallCert类,将以下代码复制进去 package com; import java.io.BufferedReader ...

  7. asp.net mvc 如何调用微信jssdk接口:分享到微信朋友(圈)| 分享到qq空间

    如何在asp.net mvc 项目里, 调用微信jssdk接口,现实功能: 分享到微信朋友(圈)| 分享到qq空间 1 创建一个Action,准备一些数据,初始化数据(签名): /// <sum ...

  8. 关于微信网页调用js-sdk相关接口注意事项目(一级域名与二级域名互相干扰!!!)

    不知道有没有网友遇到过同一个web应用用不同的域名(一级或二级域名)在两个公众号中调用JSSDK相关接口实现功能, 这种做法本来没有问题,问题在于用二级域名(同属一级域名下的二级域名)绑定另一个web ...

  9. JS调用腾讯接口获取天气

    想做个直接通过JS获取某个城市的天气.本来想通过直接调用中国气象网的接口: http://www.weather.com.cn/weather/101070201.shtml,但是跨域问题一直无法解决 ...

随机推荐

  1. Tensorflow&CNN:验证集预测与模型评价

    版权声明:本文为博主原创文章,转载 请注明出处:https://blog.csdn.net/sc2079/article/details/90480140 - 写在前面 本科毕业设计终于告一段落了.特 ...

  2. Scala环境安装步骤

    1.scala解释器本地安装 2.IDEA安装 3.安装IDEA的scala插件 4.创建maven项目 5.安装ScalaSDK

  3. 【胡搞的不能AC的题解,暴力搜索一发博弈问题】1995 三子棋 - 51Nod

    1995 三子棋 题目来源: syu校赛 基准时间限制:1 秒 空间限制:131072 KB 分值: 0 难度:基础题 原题链接: https://www.51nod.com/onlineJudge/ ...

  4. 命令检测站点是否使用CDN加速

    在CMD   输入   nslookup    域名 例如:nslookup www.baidu.com有CDN的示例Server:  cache3-gzAddress:  211.98.4.1Non ...

  5. Java中list在循环中删除元素的坑

    JAVA中循环遍历list有三种方式for循环.增强for循环(也就是常说的foreach循环).iterator遍历. 1.for循环遍历list for(int i=0;i<list.siz ...

  6. pycharm连接不上mysql数据库的解决办法

    问题描述 环境:ubuntu18.04,mysql5.7 今天在ubuntu下使用pycharm连接mysql,发现连接不上 这不是缺少驱动吗?下载之! 下好之后点进去 连接 点击test conne ...

  7. Laravel 项目架构 弹性、可维护性

    公司项目可能需要对架构进行重建,老大给了我一个视频让我学习里面的思想,看完后觉得收获很大,主讲人对laravel项目各个层次有很清晰的理解,力求做到职责单一分明,提高可维护性.下面是我看完视频对其内容 ...

  8. MongoDB 查看集合是否分片

    MongoDB会把分片过的集合保存在config.collection集合中,若需要查看分片键,则需要根据该集合进行查找.官方的其他很多分片快捷命令也都处于config库 三种方式 1.去config ...

  9. bzoj 1396/2865: 识别子串 后缀自动机+线段树

    水水的字符串题 ~ #include <map> #include <cstdio> #include <cstring> #include <algorit ...

  10. Python多线程笔记(二)

    Lock对象 原语锁(互斥锁)是一个同步原语,状态是"已锁定"或者"未锁定"之一.两个方法acquire()和release()用于修改锁的状态.如果状态为已锁 ...