(转)oracle字符集与汉字

Oracle与汉字问题与字符集

分类： oracle 2012-10-29 17:31 425人阅读评论(0) 收藏举报

Oracle字符集引起的几个问题，常见的就是汉字占多少个字节，其次就是字符集导致数据库启动失败以及索引失效等问题

汉字占多少个字节？

select length('ABCDE中文字符串FG'),lengthb('ABCDE中文字符串FG') from dual;

就可以知道，一个汉字占了几个字节，也可以查看数据库的字符集

select * from nls_database_parameters where parameter ='NLS_CHARACTERSET';

当NLS_CHARACTERSET=AL32UTF8时（UTF-8是变长编码，每个Unicode代码点按照不同范围，可以有1-3字节的不同长度）
NLS_LENGTH_SEMANTICS=BYTE时，一个汉字代表三个字节
NLS_LENGTH_SEMANTICS=CHAR时，一个汉字代表一个字节
当NLS_CHARACTERSET=US7ASCII时（字符集为单字节）
NLS_LENGTH_SEMANTICS=BYTE时，一个汉字代表两个字节
NLS_LENGTH_SEMANTICS=CHAR时，一个汉字代表两个字节

Oracle与汉字问题相关的函数

注意：计算长度的几个方法区别如下：

LENGTH(string1) 返回以字符为单位的长度.
LENGTHB(string1) 返回以字节为单位的长度.
LENGTHC(string1) 返回以Unicode完全字符为单位的长度.
LENGTH2(string1) 返回以UCS2代码点为单位的长度.
LENGTH4(string1) 返回以UCS4代码点为单位的长度.

substr,substrb均为字符串截取函数，都带有三个参数，第一个参数为所要截取的字符串，第二个参数为strart（索引均从1开始），第三个参数为length。
substr是按照字来算的，而substrb()是按照字节来算的

关于substr,substrb的例子举例：

SQL> select substr('今天是个好日子',3,5) from dual;
----------
是个好日子
SQL> select substrb('今天是个好日子',3,5) from dual;
-----
天是
结论是substr是按照字来算的，而substrb()是按照字节来算的。看下面的例子：
SQL> select substr('abcdef',3,4) from dual;
----
cdef
SQL> select substrb('abcdef',3,4) from dual;
----
cdef
分析：对于字母来说，substr与substrb作用时一样的，但对于汉字来说，substr是按字来取值，而substrb是按字节来取值，当所取长度为奇数时，则自动舍弃最后一位字节。
类似的还有，
length与lengthb 长度计算函数
select length('你好') from dual ----output:2
select lengthb('你好') from dual ----output :4

Instr与Instrb 字符串查找函数 instr(原字符串,查的字符串,起始位置,第几个匹配) 返回字符串位置,找不到返回0 .
select instr('日日花前长病酒','花前',1,1) from dual ----output:3
select instrb('日日花前长病酒','花前',1,1) from dual ----output:7

Oracle字符集

安装数据库的时候可以设置字符集，不同版本可能默认的字符集是不一样的（以Oracle 9i为例子)

首先查看字符集：(注意:修改数据库字符集时必须谨慎，修改之前一定要为数据库备份。由于不能回退这项操作,因此可能会造成数据丢失或者损坏)

SQL> select name,value$ from props$ where name like '%NLS%';

NAME                           VALUE$

------------------------------ ------------------------------

NLS_LANGUAGE                   AMERICAN

NLS_TERRITORY                  AMERICA

NLS_CURRENCY                   $

NLS_ISO_CURRENCY               AMERICA

NLS_NUMERIC_CHARACTERS         .,

NLS_CHARACTERSET               US7ASCII

NLS_CALENDAR                   GREGORIAN

NLS_DATE_FORMAT                DD-MON-RR

NLS_DATE_LANGUAGE              AMERICAN

……………….

NLS_NCHAR_CHARACTERSET         AL16UTF16

NLS_RDBMS_VERSION              9.2.0.4.0

20 rows selected.

SQL> select name,dump(name) from eygle.test;

NAME   DUMP(NAME)

------------------------------------------------------

测试     Typ=1 Len=4: 178,226,202,212

Test      Typ=1 Len=4: 116,101,115,116

2 rows selected.

转换字符集，你只能在新字符集是旧字符集严格超集的情况下使用这种方式转换。所谓超集是指:当前字符集中的每一个字符在新字符集中都可以表示，并使用同样的代码点比如很多字符集都是US7ASCII的严格超集.

如果不是超集，将获得以下错误:

SQL> ALTER DATABASE CHARACTER SET ZHS16CGB231280;
ALTER DATABASE CHARACTER SET ZHS16CGB231280*ERROR at line 1:ORA-12712: new character set must be a superset of old character set

转换字符集，数据库应该在RESTRICTED模式下进行:

<p>c:\>sqlplus "/ as sysdba"
SQL*Plus: Release 9.2.0.4.0 - Production on Sat Nov 1 10:52:30 2003
Copyright (c) 1982, 2002, Oracle Corporation. All rights reserved.
Connected to:
Oracle9i Enterprise Edition Release 9.2.0.4.0 - Production
With the Partitioning, Oracle Label Security, OLAP and Oracle Data Mining options
JServer Release 9.2.0.4.0 - Production
SQL> shutdown immediate
Database closed.
Database dismounted.
ORACLE instance shut down.
SQL> STARTUP MOUNT;
ORACLE instance started.
Total System Global Area 76619308 bytes
Fixed Size 454188 bytes
Variable Size 58720256 bytes
Database Buffers 16777216 bytes
Redo Buffers 667648 bytes
Database mounted.
SQL> ALTER SESSION SET SQL_TRACE=TRUE;
Session altered.
SQL> ALTER SYSTEM ENABLE RESTRICTED SESSION;
System altered.
SQL> ALTER SYSTEM SET JOB_QUEUE_PROCESSES=0;
System altered.
SQL> ALTER SYSTEM SET AQ_TM_PROCESSES=0;
System altered.
SQL> ALTER DATABASE OPEN;
Database altered.
SQL> set linesize 120
SQL> ALTER DATABASE CHARACTER SET ZHS16GBK;
ALTER DATABASE CHARACTER SET ZHS16GBK
*
ERROR at line 1:
ORA-12721: operation cannot execute when other sessions are active
SQL> ALTER DATABASE CHARACTER SET ZHS16GBK;
ALTER DATABASE CHARACTER SET ZHS16GBK
*
ERROR at line 1:
ORA-12716: Cannot ALTER DATABASE CHARACTER SET when CLOB data exists
在Oracle9i中，如果数据库存在CLOB类型字段，那么就不允许对字符集进行转换
</p>

这时候，我们可以去查看alert<sid>.log日志文件，看CLOB字段存在于哪些表上:

ALTER DATABASE CHARACTER SET ZHS16GBK SYS.METASTYLESHEET (STYLESHEET) - CLOB populatedORA-12716 signalled during: ALTER DATABASE CHARACTER SET ZHS16GBK...

对于不同情况，Oracle提供不同的解决方案，如果是用户数据表，一般我们可以把包含CLOB字段的表导出，然后drop掉相关对象，
转换后再导入数据库；对于系统表，可以按照以下方式处理:

SQL> truncate table Metastylesheet;Table truncated.
SQL> ALTER SESSION SET SQL_TRACE=TRUE;
Session altered.
SQL> ALTER DATABASE CHARACTER SET ZHS16GBK;
Database altered.
SQL> ALTER SESSION SET SQL_TRACE=FALSE;
Session altered.

在9.2.0中，转换完成以后，可以通过运行catmet.sql脚本来重建Metastylesheet表:

SQL> @?/rdbms/admin/catmet.sql

通过Metastylesheet表来测试不同字符集的影响。

提示:
通过设置sql_trace，我们可以跟踪很多数据库的后台操作，这个工具是DBA常用的“利器”之一。
我们简单看一下数据库更改字符集时的后台处理，我提取了主要的更新部分。
通过以下跟踪过程，我们看到数据库在更改字符集的时候，主要更新了12张数据字典表，修改了数据库的原数据，这也证实了我们以前的说法:
这个更改字符集的操作在本质上并不转换任何数据库字符，只是简单的更新数据库中所有跟字符集相关的信息。

update col$ set charsetid = :1
where
charsetform = :2
update argument$ set charsetid = :1
where
charsetform = :2
update collection$ set charsetid = :1
where
charsetform = :2
update attribute$ set charsetid = :1
where
charsetform = :2
update parameter$ set charsetid = :1
where
charsetform = :2
update result$ set charsetid = :1
where
charsetform = :2
update partcol$ set spare1 = :1
where
charsetform = :2
update subpartcol$ set spare1 = :1
where
charsetform = :2
update props$ set value$ = :1
where
name = :2
update "SYS"."KOTAD$" set SYS_NC_ROWINFO$ = :1
where
SYS_NC_OID$ = :2
update seq$ set increment$=:2,minvalue=:3,maxvalue=:4,cycle#=:5,order$=:6,
cache=:7,highwater=:8,audit$=:9,flags=:10
where
obj#=:1
update kopm$ set metadata = :1, length = :2
where
name='DB_FDO'

注意：通过前面 ” ALTER DATABASE CHARACTER
SET”
方式更改字符集时，Oracle至少需要更改12张数据字典表，而这种直接更新props$表的方式只完成了其中十二分之一的工作，潜在的完整性隐患是可
想而知的。而且通过更新props$表的方式修改字符集,在Oracle7之后就不应该被使用.

(转)oracle字符集与汉字的更多相关文章

Oracle 一个中文汉字占用几个字节,由Oracle中字符集编码决定
Oracle 一个中文汉字占用几个字节,要根据Oracle中字符集编码决定查看oracle server端字符集 select userenv('language') from dual; 如果显 ...
ORACLE字符集基础知识
概念描叙 ORACLE数据库有国家字符集(national character set)与数据库字符集(database character set)之分.两者都是在创建数据库时需要设置的.国家 ...
Oracle一个中文汉字占用几个字节
Oracle 一个中文汉字占用几个字节,要根据Oracle中字符集编码决定查看oracle server端字符集 select userenv('language') from dual; 如 ...
转Oracle字符集问题总结
Oracle字符集问题总结分类: Oracle2006-06-04 13:48 1298人阅读评论(3) 收藏举报 oracle数据库sqlcharacter存储insert 作者: vston ...
oracle字符集问题总结
在进行web开发和oracle安装的过程中经常有人对字符集搞不清楚,因此对此做一下总结. 1.第一个问题:字符集之间的区别是什么呢? 常见的字符集有:UTF-8和GBK (1)GBK字符集 G ...
oracle 字符集
---- 在国内外大中型数据库管理系统中,把ORACLE作为数据库管理平台的用户比较多.ORACLE 不论是数据库管理能力还是安全性都是无可非议的,但是,它在汉字信息的显示方面着实给中国用户带来不少麻 ...
Oracle 字符集问题
1 简介 ORACLE数据库字符集,即Oracle全球化支持(Globalization Support),或即国家语言支持(NLS)其作用是用本国语言和格式来存储.处理和检索数据.利用全球化支持,O ...
更改Oracle字符集避免乱码
如何更改Oracle字符集避免乱码转一位大神的笔记. 国内最常用的Oracle字符集ZHS16GBK(GBK 16-bit Simplified Chinese)能够支持繁体中文,并且按照2个字符长 ...
转://oracle字符集
一.oracle字符集基础知识oracle数据库有国家字符集(national character set)与数据库字符集(database character set)之分.两者都是在创建数据库时需 ...

随机推荐

js判断是移动端还是pc端
运行页面的时候,执行到js会判断来自于移动端还是pc端,如果是移动端则跳转制定链接地址,这样在手机端会有额外的不必要浪费的加载时间 var browser={ versions:function(){ ...
Win XP 如何禁用系统的自动更新
想关闭系统的自动更新. 打开[控制面板]/[安全中心],发现“自动更新”和“更改安全中心通知我的方式”,都已成了灰色,无法更改. 网上查了一下,找到了这样一个处理方法:将[服务]中一个名为“Autom ...
网易新闻页面信息抓取 -- htmlagilitypack搭配scrapysharp
最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决定试一试~ 于是到https://www.nuget.org/packages/Scrapy ...
如何使页面滚动条移动到指定元素element的位置处？
如何使页面滚动条移动到指定元素element的位置处? 在用selenium做测试时,会遇到需要操作的元素不在当前可视页面中的情况,如果是手工测试,自然很简单,手动拖拽滚动条到目标元素处即可. 那么, ...
UVa 10161 Ant on a Chessboard
一道数学水题,找找规律. 首先要判断给的数在第几层,比如说在第n层.然后判断(n * n - n + 1)(其坐标也就是(n,n)) 之间的关系. 还要注意n的奇偶. Problem A.Ant o ...
51nod1442 士兵的旅行
裸网络流拆点就可以了... #include<cstdio> #include<cstring> #include<cctype> #include<algo ...
[原创] - C#编程大幅提高OUTLOOK的邮件搜索能力!
使用OUTLOOK, 你有没有遇到过上图的问题? 多达18419封邮件! 太多了, 每次想找一个邮件都非常耗时, 想办法解决这个问题成了一件非常紧迫的事情. 利用MS Search当然可以, 但是它太 ...
python Tkinter接受键盘输入并保存文件
最近想用python写个切换host的小工具,折腾了好几天,终于实现了第一步. 采用Tkinter编程,text控件接受输入,然后点击save按钮,保存内容到当前文件夹下,文件名为hostb,如下两张 ...
IOS中控制器的重要方法使用
1.屏幕即将旋转的时候调用(控制器监控屏幕旋转) - (void)willRotateToInterfaceOrientation:(UIInterfaceOrientation)toInterfac ...
浅析extendedLayout, automaticallyAdjustsScrollViewInsets, extendedLayoutIncludesOpaqueBars
参考文章: http://stackoverflow.com/questions/18798792/explaining-difference-between-automaticallyadjusts ...

(转)oracle字符集与汉字

Oracle与汉字问题与字符集

(转)oracle字符集与汉字的更多相关文章

随机推荐

热门专题