oracle正则截取字符串的函数

现在有这么一个需求，数据库中的一个手输的‘籍贯’字段，要按一定的规范截取显示在报表上，比如，如果‘籍贯’的内容是：‘山东省潍坊市昌乐县’，那么报表里要显示为：‘山东昌乐’，如果‘籍贯’是山东省潍坊市寒亭区那么就要出来山东潍坊，简化的基本需求就是这样，取省一级和县一级，如果县一级是个区，那就取到市一级，

没有县一级的话，是数据不规范，但是先将就着取省一级和市一级。

要实现这个目的，第一是要从数据库里把相应的字段取出来，第二是要写一个oracle截取字符串的函数处理下‘籍贯’字段。

第一步比较简单，就略过，只看我们的截取函数。

create or replace function f_addr(address in varchar2) return varchar2 as

new_addr varchar2(100);

tempstr1 gscodeitems.name%type;

tempstr2 varchar2(100);

tempstr3 varchar2(100);

tempstr4 varchar2(100);

tempn0 number;

tempn1 number;

tempn2 number;

tempn3 number;

tempnn number;

cursor minzustrs is

select name from gscodeitems where gscodeitems.codesetnm = '411CBC8F-35D8-4634-944B-0C1065782F48’;

begin

/*单字县*/

if REGEXP_COUNT(address, '^([^省区族]+)(省|(.族)?自治区|市)((.+市|.+地区|.+州)?([^族县])(县))$') > 0

then new_addr := REGEXP_REPLACE(address, '^([^省区族]+)(省|(.族)?自治区|市)((.+市|.+地区|.+州)?([^族县])(县))$', '\1\6县');

/*新疆维吾尔*/

elsif REGEXP_COUNT(address, '^新疆') > 0

then new_addr := REGEXP_REPLACE(address, '^(新疆)(维吾尔自治区)((.+市|.+地区|.+州)?([^族]+)(县|市|.族自治县)|((.+)市)?([^族]+)(区|旗))$', '\1\5\8’);

 /*特殊处理双民族两个字的民族在前, 策略是把两个字的民族干掉，就恢复成正常模式*/

elsif regexp_count(address, '([^族]+)族', 4) >= 2

then tempstr1 := regexp_substr(address, '([^族]{2})族', 3);

for minzustr in minzustrs loop

if tempstr1 = minzustr.name then

tempnn := 1; exit;

else tempnn := 0;

end if; end loop;

if tempnn = 1 then

tempn0 := length(tempstr1);

tempn1 := regexp_instr(address,tempstr1);

tempn2 := tempn1 - 1;

tempn3 := tempn1 + tempn0;

tempstr2 := substr(address,0,tempn2);

tempstr3 := substr(address, tempn3);

tempstr4 := concat(tempstr2,tempstr3);

new_addr := REGEXP_REPLACE(tempstr4,     '^([^省区族]+)(省|(.族)?自治区|市)((.+市|.+地区|.+州)?([^族]+)(县|市|.族自治县)|((.+)市)?([^族]+)(区|旗))$',  
   '\1\6\9');

else

tempstr1 := regexp_substr(address, '([^族])族', 3);

tempn0 := length(tempstr1);

tempn1 := regexp_instr(address,tempstr1);

tempn2 := tempn1 - 1;

tempn3 := tempn1 + tempn0;

tempstr2 := substr(address,0,tempn2);

tempstr3 := substr(address, tempn3);

tempstr4 := concat(tempstr2,tempstr3);

new_addr := REGEXP_REPLACE(tempstr4,     '^([^省区族]+)(省|(.族)?自治区|市)((.+市|.+地区|.+州)?([^族]+)(县|市|.族自治县)|((.+)市)?([^族]+)(区|旗))$',     '\1\6\9');

end if; /*特殊处理单民族 两个字的民族，先干掉广西和宁夏，再取族前两个字判断是否合法，如果合法，就干掉一个字，然后走正常流程*/

elsif regexp_count(address, '([^族]+)族', 4) = 1 then

tempstr1 := regexp_substr(address, '([^族]{2})族', 3);

 for minzustr in minzustrs loop

if tempstr1 = minzustr.name then

tempnn := 1; exit;

else tempnn := 0;

end if;

end loop;

if tempnn = 1 then

tempn0 := length(tempstr1);

tempn1 := regexp_instr(address,tempstr1);

tempn2 := tempn1 - 1;

tempn3 := tempn1 + tempn0 - 2;

tempstr2 := substr(address,0,tempn2);

tempstr3 := substr(address, tempn3);

tempstr4 := concat(tempstr2,tempstr3);

new_addr := REGEXP_REPLACE(tempstr4,     '^([^省区族]+)(省|(.族)?自治区|市)((.+市|.+地区|.+州)?([^族]+)(县|市|.族自治县)|((.+)市)?([^族]+)(区|旗))$', 
    '\1\6\9');

else

new_addr := REGEXP_REPLACE(address,     '^([^省区族]+)(省|(.族)?自治区|市)((.+市|.+地区|.+州)?([^族]+)(县|市|.族自治县)|((.+)市)?([^族]+)(区|旗))$',
     '\1\6\9');

end if;

else

new_addr := REGEXP_REPLACE(address, '^([^省区族]+)(省|(.族)?自治区|市)((.+市|.+地区|.+州)?([^族]+)(县|市|.族自治县)|((.+)市)?([^族]+)(区|旗))$',
 '\1\6\9');

end if;

return new_addr;

end f_addr;

这个函数里，比较关键的，其实是一个正则表达式，函数主体用了几个if else 处理几种特殊情况，没有覆盖全部的情况，只是覆盖了几种，这个可以稍后讨论，直接看最后一个else，这里的这个正则就是用到的最基本的正则了：

new_addr := REGEXP_REPLACE(address, '^([^省区族]+)(省|(.族)?自治区|市)((.+市|.+地区|.+州)?([^族]+)(县|市|.族自治县)|((.+)市)?([^族]+)(区|旗))$',
'\1\6\9');
这个内置函数，查下oracle的API即可，看到含义也跟猜到个差不多，是一个返回一个新字符串来替代原字符串的功能，此处简单说下，第一个参数address，是源字符串，
第二个就是我们的正则pattern, 第三个是返回的字符串，第三个参数‘\1\6\9’，如果熟悉正则的同学，可能会觉得似曾相识，这是取子表达式用的，从左到右，左括号的排序，
就是我们子表达式的排序，取第一第六第九个子表达式，直观的拿出来，就是取 ([^省区族]+)和([^族]+)和(.+)，你找对了么。

分析下这里的这个正则，其实很简单，整体用两个括号分为两部分：头和尾。
第一个：^([^省区族]+)(省|(.族)?自治区|市)，
第二个：((.+市|.+地区|.+州)?([^族]+)(县|市|.族自治县)|((.+)市)?([^族]+)(区|旗))$
简单的说，
第一个是匹配省、自治区和直辖市的
第二个是匹配市县两级和市区两级的，
\1自然是取省的名称，比如：山东省潍坊市昌乐县，\1就会取到：山东，
\6是取县一级的名称的，比如：山东省潍坊市昌乐县，\6就会取到：昌乐，
\9是取省市区这种行政级别的市一级的名称，比如：山东省潍坊市寒亭区，\9就会取到潍坊
当表达式匹配到\6的时候，\9的返回值会是空字符串，匹配到\9的时候，\6也会返回空字符串，所以这一个表达式，妥妥的满足我们的需求，
其他的情况，在这里先不表，就是特殊处理了下民族自治县，自治州，新疆啊等。

欢迎同学们有疑问的共同探讨。

oracle正则截取字符串的函数的更多相关文章

【面试题】JS使用parseInt()、正则截取字符串中数字
JS使用parseInt()和正则截取字符串中数字点击打开视频讲解更加详细 parseInt() 函数定义和用法 parseInt() 函数可解析一个字符串,并返回一个整数. 当参数 radix ...
Excel怎样从一串字符中的某个指定“字符”前后截取字符及截取字符串常用函数
怎么样可以从一串字符中的某个指定位置的前或后截取指定个数的字符. 如:12345.6789,我要截取小数点前(或后)的3个字符.怎么样操作, 另外,怎么样从右边截取字符,就是和left()函数相反的那 ...
面试题之java 编写一个截取字符串的函数，输入为一个字符串和字节数，输出为按字节截取的字符串。要求不能出现截半的情况
题目:10. 编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串. 但是要保证汉字不被截半个,如"我ABC"4,应该截为"我AB",输 ...
数据库截取字符串SUBSTR函数的使用
背景今天中午做需求的时候,有类似于根据银行卡卡号的前几位判断出是哪个银行的情况,每个银行需要截取的位数都不一样,这时我就想到了SUBSTR 数据库截取字符串SUBSTR函数的使用假设有一个表的结构 ...
编写一个截取字符串的函数，输入为一个字符串和字节数，输出为按字节截取的字符串。但是要保证汉字不被截半个，如“我ABC”4，应该截为“我AB”，输入“我ABC汉DEF”，6，应该输出为“我ABC”而不是“我ABC+汉的半个”。
一.需要分析 1.输入为一个字符串和字节数,输出为按字节截取的字符串--->按照字节[byte]截取操作字符串,先将String转换成byte类型 2.汉字不可以截半--->汉字截半的话对 ...
java算法面试题：编写一个截取字符串的函数，输入为一个字符串和字节数，输出为按字节截取的字符串，但要保证汉字不被截取半个，如“我ABC”，4，应该截取“我AB”，输入“我ABC汉DEF”，6，应该输出“我ABC”，而不是“我ABC+汉的半个”。
package com.swift; import java.util.Scanner; public class Hanzi_jiequ { public static void main(Stri ...
SQL Server中截取字符串常用函数
SQL Server 中截取字符串常用的函数: .LEFT ( character_expression , integer_expression ) 函数说明:LEFT ( '源字符串' , '要截 ...
Sql注入截取字符串常用函数
在sql注入中,往往会用到截取字符串的问题,例如不回显的情况下进行的注入,也成为盲注,这种情况下往往需要一个一个字符的去猜解,过程中需要用到截取字符串.本文中主要列举三个函数和该函数注入过程中的一些用 ...
ABAP自定义截取字符串长度函数
SAP 中strlen()只能计算字符串的个数,不能计算含有中文字符串的长度,如字符串“SAP大波霸”,strlen('SAP大波霸') = 6,其实真实长度为3+3*2 = 9.我们可以通过cl_a ...

随机推荐

JS中关于clientWidth offsetWidth srollWidth等的含义
网页可见区域宽: document.body.clientWidth;网页可见区域高: document.body.clientHeight;网页可见区域宽: document.body.offset ...
ip输入框键入.或者合法数字自动选择下一个输入框效果
<!DOCTYPE html> <html lang="zh-cn"> <head> <meta charset="utf-8& ...
mysql 时间戳与日期格式的相互转换
1.UNIX时间戳转换为日期用函数: FROM_UNIXTIME() ); 输出:2006-08-22 12:11:10 2.日期转换为UNIX时间戳用函数: UNIX_TIMESTAMP() Sel ...
C# Winform开发框架模块图(平台核心模块+示例模块)
企业版V4.0 - 模块图企业版V4.0 - 项目解决方案 Client/Server构架,有两个解决方案: 客户端解决方案说明: 服务端解决方案说明: C/S系统开发框架- ...
matlab函数之diag
diag(A) 这个看似简单的函数确认让我头疼了几个小时该函数其实有两个作用 ① 如果A是一个矩阵,那么diag(A)的作用便是提取A的对角线元素 ② 如果A是一个向量,那么diag(A)的作用便是 ...
tomcat出现的PermGen Space问题(bat，或者eclipse启动。）
参考地址 http://www.blogjava.net/allen-zhe/archive/2007/12/18/168556.html 参考地址:http://javavsxiaoming.ite ...
【产品体验】echo回声
本人产品新人,学习中,希望大家用过该产品的给点意见,不吝赐教哦~~ 先来两张echo的界面图镇楼—— echo简介: “echo”是一款做声音社交的APP,在这里,你可以感受到声音无限的 ...
Hdu5510 Bazinga
Description Ladies and gentlemen, please sit up straight. Don't tilt your head. I'm serious. For \(n ...
关于@synchronized(self)的用法
@synchronized 的作用是创建一个互斥锁,保证此时没有其它线程对self对象进行修改.这个是objective-c的一个锁定令牌,防止self对象在同一时间内被其它线程访问,起到线程的保护作 ...
Reporting Services 钻取报表、子报表
一.钻取报表 1.概念钻取报表是指用户通过单击其他报表中的链接打开的报表.钻取报表通常包含某原始汇总报表中所包含的某项的详细信息. 例如,在此图中,销售额汇总报表列出了销售订单和总额.当用户单击该汇 ...

oracle正则截取字符串的函数

oracle正则截取字符串的函数的更多相关文章

随机推荐

热门专题