本题不是一道直接的字符串拆解,

应用场景如下,表中有一个字段,是表示事件受影响的国家集合,使用逗号进行分隔,不幸的是,居然发现有些国家本身就带有逗号,这样在规范化的时候,如何准确地找到这些国家呢?

以下的代码是有一定限制的。但基本上够用。

下面的代码使用到了分析函数lag和lead还有cte,sqlserver2012及其以后的版本都支持,oracle好像10g以上就支持了。

主要思路:

字符串的分解,可以使用数字辅助表,然后cross join刷副本,然后根本分隔符出现的位置然后切豁字符串拆解到我们需要的东东。(解决方案中我使用的递归CTE来处理找到对应的位置)

现在还需要多加一步,就是对拆解的部分进行验证和去重不符合要求的那一部。

使用LAG和LEAD的好处,就是不需要再用自连接去找到对应的下一条数据了。

本题的解题原则是如何长项能连接到正确的国家,则取长项的,否则取短项的。

代码如下:

 --准备示例表与数据

drop table my_countries;

drop table valid_country;

create table my_countries(rid int,country_name_cc varchar(200));

insert into my_countries(rid,country_name_cc) values(1,'china,test, public of');

insert into my_countries(rid,country_name_cc) values(2,'us, public of,china,Evan, public of');

create table valid_country(cid int, country_name varchar(30));

insert into valid_country(cid,country_name) values(1,'china');

insert into valid_country(cid,country_name) values(2,'test, public of');

insert into valid_country(cid,country_name) values(3,'Evan, public of');

insert into valid_country(cid,country_name) values(4,'us, public of');

insert into valid_country(cid,country_name) values(5,'Evan');

--select * from my_countries;

--select * from valid_country;

正确的结果是:

WITH SPLIT_COUNTRY AS

(

SELECT

RID,

1 AS LVL,

1 AS STARTPOS,

CHARINDEX(',',COUNTRY_NAME_CC+',')-1 AS ENDPOS

FROM MY_COUNTRIES

UNION ALL

SELECT

SC.RID,

LVL+1 AS LVL,

ENDPOS+2,

CHARINDEX(',',COUNTRY_NAME_CC+',',ENDPOS+2)-1

FROM

MY_COUNTRIES CC JOIN

SPLIT_COUNTRY SC ON CC.RID=SC.RID

WHERE CHARINDEX(',',CC.COUNTRY_NAME_CC+',',ENDPOS+2)>0

)

,CTE_COUNTRY AS (

SELECT RID,LVL,STARTPOS,ENDPOS,LEAD(ENDPOS,1) OVER(PARTITION BY RID ORDER BY LVL) AS NEXTENDPOS FROM SPLIT_COUNTRY

)

,CTE AS (

SELECT MC.RID,SC.LVL,

CASE WHEN NEXTENDPOS IS NOT NULL AND EXISTS (SELECT * FROM VALID_COUNTRY VC WHERE VC.COUNTRY_NAME = SUBSTRING(COUNTRY_NAME_CC,STARTPOS,NEXTENDPOS-STARTPOS+1)) THEN

SUBSTRING(COUNTRY_NAME_CC,STARTPOS,NEXTENDPOS-STARTPOS+1)

ELSE

SUBSTRING(MC.COUNTRY_NAME_CC,STARTPOS,ENDPOS-STARTPOS+1)

END

AS COUNTRY

FROM MY_COUNTRIES MC JOIN CTE_COUNTRY SC

ON MC.RID=SC.RID

)

,CHECK_VALID AS (

SELECT CASE WHEN CHARINDEX(',',LAG(COUNTRY,1) OVER(PARTITION BY RID ORDER BY LVL))>0 THEN 0 ELSE 1 END AS ISVALID,

* FROM CTE

)

SELECT CV.RID,CV.COUNTRY,VC.CID FROM CHECK_VALID CV JOIN VALID_COUNTRY VC

ON CV.COUNTRY = VC.COUNTRY_NAME

AND ISVALID=1 ORDER BY RID;

另一种方案,在第一种的基础上稍加修改:

WITH SPLIT_COUNTRY AS

(

SELECT

RID,

1 AS LVL,

1 AS STARTPOS,

CHARINDEX(',',COUNTRY_NAME_CC+',')-1 AS ENDPOS

FROM MY_COUNTRIES

UNION ALL

SELECT

SC.RID,

LVL+1 AS LVL,

ENDPOS+2,

CHARINDEX(',',COUNTRY_NAME_CC+',',ENDPOS+2)-1

FROM

MY_COUNTRIES CC JOIN

SPLIT_COUNTRY SC ON CC.RID=SC.RID

WHERE CHARINDEX(',',CC.COUNTRY_NAME_CC+',',ENDPOS+2)>0

)

,CTE_COUNTRY AS (

SELECT RID,LVL,STARTPOS,ENDPOS,LEAD(ENDPOS,1) OVER(PARTITION BY RID ORDER BY LVL) AS NEXTENDPOS FROM SPLIT_COUNTRY

)

,CTE AS (

SELECT MC.RID,SC.LVL,

SUBSTRING(MC.COUNTRY_NAME_CC,STARTPOS,ENDPOS-STARTPOS+1) AS COUNTRY,

SUBSTRING(COUNTRY_NAME_CC,STARTPOS,NEXTENDPOS-STARTPOS+1) AS COUNTRY2

FROM MY_COUNTRIES MC JOIN CTE_COUNTRY SC

ON MC.RID=SC.RID

)

SELECT CTE.RID,VC.COUNTRY_NAME,VC.CID

FROM

CTE JOIN VALID_COUNTRY VC

ON (CASE WHEN EXISTS(SELECT * FROM VALID_COUNTRY X WHERE X.COUNTRY_NAME=CTE.COUNTRY2) THEN CTE.COUNTRY2

ELSE CTE.COUNTRY END) = VC.COUNTRY_NAME

;

SQL-一道特殊的字符串分解题目的更多相关文章

  1. SQL Server中截取字符串常用函数

    SQL Server 中截取字符串常用的函数: .LEFT ( character_expression , integer_expression ) 函数说明:LEFT ( '源字符串' , '要截 ...

  2. 使用List把一个长字符串分解成若干个短字符串

    把一个长字符串分解成若干个固定长度的短字符串,由于事先不知道长字符串的长度,以及短字符串的数量,只能使用List. public static void get_list_sbody(String s ...

  3. sql server 查找包含字符串的对象

    sql server 查找包含字符串的对象 SELECT sm.object_id, OBJECT_NAME(sm.object_id) AS object_name, o.type, o.type_ ...

  4. java字符串分解 StringTokenizer用法(比split()方法效率高)

    Java中substring方法可以分解字符串,返回的是原字符串的一个子字符串.如果要讲一个字符串分解为一个一个的单词或者标记,StringTokenizer可以帮你. int countTokens ...

  5. SQL Server 中截取字符串常用的函数

    SQL Server 中截取字符串常用的函数: 1.LEFT ( character_expression , integer_expression ) 函数说明:LEFT ( '源字符串' , '要 ...

  6. sql server中截取字符串的常用函数

    我们如果要在sql server中,使用截取字符串的方法要怎样使用呢? sql server提供了3个常用截取字符串方法,LEFT().RIGHT().SUBSTRING() /****** Sql ...

  7. Sql动态查询拼接字符串的优化

    Sql动态查询拼接字符串的优化 最原始的 直接写:string sql="select * from TestTables where 1=1";... 这样的代码效率很低的,这样 ...

  8. java字符串分解 StringTokenizer用法

    Java中substring方法可以分解字符串,返回的是原字符串的一个子字符串.如果要讲一个字符串分解为一个一个的单词或者标记,StringTokenizer可以帮你. 先看个例子: 1 public ...

  9. XE4 TStringDynArray 比 c6 的TStringList 好用 字符串 分解 分割 转换 TByteDynArray

    TStringDynArray 动态数组  字符串 分解 分割  System::DynamicArray<System::UnicodeString> TByteDynArray,    ...

随机推荐

  1. SQL 日期转换(阳历转阴历)

    --步骤:创建日期表,放初始放初始化资料 --因为农历的日,是由天文学家推算出来,到现在只有到年,以后的有了还可以加入! if object_id('SolarData') is not nulldr ...

  2. 51Node 1364--- 最大字典序排列(树状数组)

    51Node  1364--- 最大字典序排列(树状数组) 1364 最大字典序排列 基准时间限制:1 秒 空间限制:131072 KB 分值: 80 难度:5级算法题  收藏  关注 给出一个1至N ...

  3. java初始化构造函数调用顺序

    类初始化时构造函数调用顺序: (1)初始化对象的存储空间为零或null值:  (2)调用父类构造函数:  (3)按顺序分别调用类成员变量和实例成员变量的初始化表达式:  (4)调用本身构造函数. 例子 ...

  4. php中的不常用数组函数(一)(数组中元素的键和值对调 array_flip())

    array_flip($arr); //交换数组中的键和值. //如下所示,如果$arr中有相同的值.交换之后 会被旧的覆盖,最后一个有效. /***********array_flip(交换数组中的 ...

  5. jquery 全选 全不选 反选

    1.概述 在项目中经常遇到列表中对复选框进行勾选操作,全选...反选.. 2. example <html> <body> <form id="test-for ...

  6. Microsoft Dynamics CRM 2013 CD-KEY

    Microsoft Dynamics CRM Workgroup Server 2013 (5 CAL limit):NX77Y-BTBCV-JP3T3-8W7JH-94QJP Microsoft D ...

  7. SQL如何取得一个面的中心点

    ) .sdo_point.x x, sdo_geom.sdo_centroid(t.shape, ) .sdo_point.y y from gd_zy_region t SQL如何取得一个面的中心点 ...

  8. Android 开发前的基本的配置及第一个Android 程序

     一.JDK 1. 网上下载JDK 2.   配置环境变量(网上百度相关资料)       JAVA_HOME=D:\Java\jdk1.8.0_91       CLASSPATH=.;%JAVA_ ...

  9. C语言中do...while(0)用法小结

    在linux内核代码中,经常看到do...while(0)的宏,do...while(0)有很多作用,下面举出几个: 本文地址:http://www.cnblogs.com/archimedes/p/ ...

  10. iOS开发 UIWebView+JavaScript 交互总结

    算是个人项目经验的,印象比较深的Web+JS交互的使用 iOS原生应用与Web页面元素交互方式有很多,JavaScriptCore.拦截协议.第三方框架WebViewJavaScriptBridge. ...