读取数据库Blob类型的文本数据

开发一个查询功能时，遇到了一个ORM的问题：数据库字段是 Blob 类型，里面实际存储的是文本数据，Java 后端代码中用字符串 String 类型去接收这个字段的数据时，报错，提示没有对应的setter方法，类型不匹配；换成 byte[] 字节数组类型去接收这个字段的数据，依然报错，同样是找不到setter方法，类型不匹配；最后只好将Java中对应的变量类型改为 java.sql.Blob 类型去接收对应的数据，不报错了，但如何取获取其中的文本数据呢？

使用的代码如下：

private String getTextFromBlob(Blob blob) {

    int i = 1;

    byte btArr[] = new byte[0];

    try {

        while (i < blob.length()) {

            byte[] bytes = blob.getBytes(i, 1024);

            btArr = ArrayUtils.addAll(btArr, bytes);

            i += 1024;

        }

        return new String(btArr, "GB2312");

    } catch (Exception e) {

        logger.error(e.getMessage(), e);

        return null;

    }

}

代码逻辑并不复杂，但其实这地方有一个坑，需要注意一下。

最开始的时候写的代码并不是这样，我在 while 循环里每次拿 1024 个字节的数据，然后使用 new String(bytes,"GB2312") 得到字符串，再用 StringBuilder 把每次循环得到的字符串拼接起来，最后 stringBuilder.toString() 返回完整的字符串内容。

写完之后，测试，没问题。但紧接着，我想到了一个问题：我每次拿1024个字节，会不会正好把组成一个汉字的两个字节拆分开呢？

答案是肯定的。虽然 GB2312 编码字符集固定使用 2 个字节来存储汉字，但是 GB2312字符集在存储 ASCII 字符的时候，用的是 1 个字节来存储。也就是说，对于英文字母、数字、英文标点，GB2312 用一个字节存储；对于中文，则使用两个字节存储。这样的话就没法保证每次拿1024个字节不会把某个汉字的两个字节拆分成两段。

因为数据库中的文字都比较短，没有超过一百个字的，程序每次拿1024个字节就把所有的内容都拿完了，所以在测试中返回的文本都是正常的。改了一下代码，把 1024 改成 10，每次拿10个字节，果然出现了乱码问题，文本中的部分中文出现了乱码，而其他部分的中文是正常的。

最后改成了上面的代码，每次依然拿固定长度的字节，然后把结果都放到一个 byte[] 字节数组里，等拿完所有的字节之后，使用 new String(bytes,"GB2312") 得到字符串，这样就避免了上面的问题。实际测试之后（每次拿10个字节），返回的文本正常，没有乱码。

当然这个代码并不完美，代码里使用 apache collections 包里的 ArrayUtils.addAll(byte[] b,byte[] c) 方法来把两个字节数据拼到一块，其内部的实现方法就是创建一个大数组，然后把两个数据的内容依次放进去，这样的话每次都要开辟一个新的内存空间，效率并不高，如果数据量大的话，会有很大的性能开销。

一个比较好的解决方案就是：自己定义一个大数组，每次循环把取到的内容放到这个大数组对应的位置上，避免每次都要 new 一个数组出来，性能更好。缺点就是代码逻辑会复杂一些。

总结：

在对字节流进行读取、拆分的时候，需要注意会不会把表示一个字符的几个字节给误拆分了，这样最后得到的内容会有部分乱码。像常见的GB2312、UTF-8、UTF-16等都是变长的方式进行字节存储，不能进行拆分；而像 UCS-2 这样的字符集，固定使用两个字节存储，按偶数进行拆分就没问题。

读取数据库Blob类型的文本数据的更多相关文章

python 数据库 blob类型转字符串
例如: 从数据库里读出了blob类型,如 z = b'61736467' 在py里转化成字符串:bytes.fromhex(z).decode('utf8')
mysql数据库中导入txt文本数据的方法
安装好MySQL和Navicat 8 for MySQL 通过Navicat 8 for MySQL创建数据库test. 2 在数据库test上创建测试数据表student(主键ID,姓名,年龄,学 ...
jsp页面file标签上传图片以及blob类型数据库存取。
我的jsp页面表单如下: <form name="form1" action="/YiQu/AddUserServlet?jurisdiction=1" ...
python读取数据库并把数据写入本地文件
一,介绍上周用jmeter做性能测试时,接口B传入的参数需要依赖接口A生成的借贷申请ID,接口A运行完需要把生成的借贷申请ID导出来到一个文件,作为参数传给接口B,刚开始的时候,手动去数据库倒, 倒 ...
pandas.read_sql_query()读取数据库数据用chunksize的坑
最近一项工作需要读取数据库中1500万条数据,考虑到数据量太大,不方便直接一次性读取,不然会内存爆炸.想到用pandas.read_sql_query()里有一个chunksize可以分批返回chun ...
插入与读取Blob类型数据
BlobTest package com.aff.PreparedStatement; import java.io.File; import java.io.FileInputStream; imp ...
读取和写入blob类型数据
读写oracle blob类型 http://zyw090111.iteye.com/blog/607869 http://blog.csdn.net/jeryjeryjery/article/de ...
在VC下采用ADO实现BLOB（Binary）数据的存储，读取，修改，删除。
在VC下采用ADO实现BLOB(Binary)数据的存储,读取,修改,删除. 作者:邵盛松 2009-09-05 前言 1关于的BLOB(Binary)数据的存储和读取功能主要参考了MSDN上的一篇& ...
使用PreparedStatement向数据表中插入、修改、删除、获取Blob类型的数据
使用PreparedStatement向数据表中插入.修改.删除.获取Blob类型的数据 2014-09-07 20:17 Blob介绍 BLOB类型的字段用于存储二进制数据 MySQL中,BLOB是 ...

随机推荐

【python】QT5 cvimg 转 pixmap
自己乱搞了一个 import cv2 from PIL import Image imageRGB = cv2.cvtColor(img, cv2.COLOR_BGR2RGB) im = Image. ...
Xcode导入IQKeyboardManager库
下载IQKeyboardManager库下载链接:https://github.com/hackiftekhar/IQKeyboardManager 将IQKeyboardManager文件夹拖入工 ...
造轮子-strace（一）
见字如面,我是东北码农. 本文是造轮子-strace的第一篇,我们先介绍strace的功能.使用.下一篇我们来用代码实现一下strace的功能,造个轮子.今天我们先观察.使用轮子. 1.什么是stra ...
微信支付 V3 RSA 加签踩坑
最近在做微信支付,根据微信官方文档上的要求用RSA加签去请求支付窗口的调起,下面详细列举支付开发过程: 当前项目的流程大概是,前端根据后端要求提交数据------->拿到后台返回的prepay ...
unittest_TestSuite测试套件（2）
在前面一章中演示了unittest如何执行一个简单的测试,但有两个问题: 我们知道测试用例的执行顺序是根据测试用例名称顺序执行的,在不改变用例名称的情况下,我们怎么来控制用例执行的顺序呢? 一个测试文 ...
.NET对接极光消息推送
什么是APP消息推送? 很多手机APP会不定时的给用户推送消息,例如一些新闻APP会给用户推送用户可能感兴趣的新闻,或者APP有更新了,会给用户推送是否选择更新的消息等等,这就是所谓的"消息 ...
用 vite 构建项目，同时支持微前端
得益于 esbuild 的超高性能,vite 在诞生之初就备受关注,且一直保持着活跃的开发迭代.截至目前,vite 已经迭代到了 2.7.10 版本,各方面也基本具备了在生产使用的条件.这段时间,我在 ...
c++中构造函数与析构函数
构造函数与析构函数构造函数与析构函数1. 构造函数2. 析构函数3. 拷贝函数4. 总结在c++中有2个特殊的函数:构造函数和析构函数,它们分别对类对象进行初始化和清理工作. 1. 构造函数构造 ...
Hello world.java
Hello world 1.随便新建一个文件夹,存放源代码 2.新建一个Java文件文件后缀名为.java Hello.java [注意点]系统可能显示没有后缀名,我们需要手动打开 3.编写代码 p ...
理解ASP.NET Core - 基于Cookie的身份认证(Authentication)
注:本文隶属于<理解ASP.NET Core>系列文章,请查看置顶博客或点击此处查看全文目录概述通常,身份认证(Authentication)和授权(Authorization)都会放 ...

读取数据库Blob类型的文本数据

读取数据库Blob类型的文本数据的更多相关文章

随机推荐

热门专题