KingbaseES数据库导入数据invalid byte sequence for encoding

一、适用版本：

KingbaseES数据库所有版本。

二、问题现象：

使用备份的数据进行还原，还原过程中发生异常。

日志信息：

sys_restore: connecting to database for restore

sys_restore: creating TABLE "public.table_name"

sys_restore: creating COMMENT "public.COLUMN table_name.com_ied_id"

sys_restore: processing data for table "public.table_name"

sys_restore: while PROCESSING TOC:

sys_restore: from TOC entry 8461; 0 71471 TABLE DATA table_name public

sys_restore: error: COPY failed for table "fes_dig": ERROR:  invalid byte sequence for encoding "UTF8": 0xe5 0x85 0x7a

CONTEXT:  COPY fes_dig, line 52184

sys_restore: creating CONSTRAINT "public.table_name table_name_pkey"

sys_restore: creating INDEX "public.dig_index_pathname"

sys_restore: creating INDEX "public.table_name_index"

主要错误信息：

sys_restore: error: COPY failed for table "fes_dig": ERROR:  invalid byte sequence for encoding "UTF8": 0xe5 0x85 0x7a

三、问题排查：

确认备份环境字符集与还原目标数据库主机、数据库字符集一致（还原文件在数据库服务器主机）：

1.登录数据库服务器执行以下命令检查：

$ env | grep LANG

LANG=en_US.UTF-8

$ localectl

   System Locale: LANG=en_US.UTF-8

       VC Keymap: us

      X11 Layout: us

$ locale

LANG=en_US.UTF-8

LC_CTYPE="en_US.UTF-8"

LC_NUMERIC="en_US.UTF-8"

LC_TIME="en_US.UTF-8"

LC_COLLATE="en_US.UTF-8"

LC_MONETARY="en_US.UTF-8"

LC_MESSAGES="en_US.UTF-8"

LC_PAPER="en_US.UTF-8"

LC_NAME="en_US.UTF-8"

LC_ADDRESS="en_US.UTF-8"

LC_TELEPHONE="en_US.UTF-8"

LC_MEASUREMENT="en_US.UTF-8"

LC_IDENTIFICATION="en_US.UTF-8"

LC_ALL=

保证备份、还原系统字符集一致。

2.登录数据库检查以下参数：

$ ksql -Usystem -dtest -p5432

ksql (V8.0)

Type "help" for help.

test=# show server_encoding ;

 SERVER_ENCODING

-----------------

 UTF8

(1 row)

test=# show client_encoding ;

 CLIENT_ENCODING

-----------------

 UTF8

(1 row)

确认数据库server_encoding、client_encoding跟备份环境的字符集一致。

3.在系统查询文件编码：

$ file -i 文件名

xx.xx: text/plain; charset=utf-8

确保文件charset跟还原数据库字符集一致。

4.查询文件内容是否有乱码或者无效字符：

linux系统：使用vim、cat、less、more进行文件内容查看：

$ cat fes_dig.sql |grep -i 721279627966801

匹配到二进制文件 （标准输入）

$ cat fes_dig.sql |grep -a 721279627966801

721279627966801 1       0       41      41      1       #A套检修压板投入开入_Z.开▒zzz    1103000000000929161

如上，尽量使用vim、cat、less、more..等4条命令分别查询文件内容，看看是否存在乱码或者无效的数据。

windows系统：使用Notpad++类似的工具进行文件内容查看：

#A套检修压板投入开入_Z.开▒zzz

XE5X85

如上，确保文件内容里面不包含以上示例无效数据。

四、问题解决：

场景1：备份库系统字符集与数据库字符集不一致：

解决方法：修改备份库系统字符集与数据库字符集一致，重新备份然后再进行还原。

场景2：还原目标库系统字符集与数据库字符集不一致：

解决方法：修改还原目标库系统字符集与数据库字符集一致，重新进行还原。

场景3：备份文件字符集与数据库字符集不一致：

备份文件是普通的文本文件，通过ftp、scp...传输后字符集发生变化

解决方法：备份的时候指定备份文件格式为二进制格式或者选择正确的传输模式。

注意：ftp传输模式有两种：ASCII模式和二进制模式：

1.ASCII模式是将文件以文本的形式传输，每次传输一个字符。这种模式适合传输普通的文本文件，如txt、html、xml等，因为它可以根据不同的操作系统自动调整换行符和回车符。

2.二进制模式是将文件以二进制的形式传输，因为二进制传输可以保持文件的原始格式和内容。

使用错误的传输模式，可能会导致以下问题：

1.如用ASCII模式传输二进制文件，可能会丢失一些重要的字节信息；

2.如果用二进制模式传输文本文件，可能会出现换行符和回车符不匹配的问题。

因此在使用ftp命令进行文件传输时，需要根据文件的类型选择合适的传输模式。

默认情况下，ftp命令使用ASCII模式进行传输。如果要切换到二进制模式，可以在ftp命令后输入binary命令。

场景4：文件内容出现乱码或者无效字符：

1.文件内容出现乱码：

解决方法：尝试使用以下命令进行文件字符集转换。

iconv -f utf-8(源字符集) -t utf-8(目标字符集) 文件 > 新的文件

如果使用以上方法文件内容依旧存在乱码可能的原因如下：

数据库字符集与系统字符集不一致，由于此问题导致在备份过程中数据产生乱码。

解决方法：参考问题解决场景1。

使用了错误的传输模式导致文件在传输过程中出现损坏或者丢失了重要的字节信息。

解决方法：参考问题解决场景3。

2.文件内容出现无效字符：参考问题排查4

解决方法：尝试使用以下命令忽略无效的字符，然后重新导入。

iconv -c -f utf-8(源字符集) -t utf-8(目标字符集) 文件 > 新的文件

场景5：程序在写入数据的时候对数据进行了截断产生无效字符：

解决方法：尝试使用以下命令对程序写入数据进行截断导致产生无效字符的处理。

iconv -f utf-8(源字符集) -t utf-8(目标字符集) 文件 > 新的文件

如果是由于程序写入数据时对数据进行截断产生无效字符，需要程序这边进行处理，保证写入数据的完整性。