本题不是一道直接的字符串拆解,

应用场景如下,表中有一个字段,是表示事件受影响的国家集合,使用逗号进行分隔,不幸的是,居然发现有些国家本身就带有逗号,这样在规范化的时候,如何准确地找到这些国家呢?

以下的代码是有一定限制的。但基本上够用。

下面的代码使用到了分析函数lag和lead还有cte,sqlserver2012及其以后的版本都支持,oracle好像10g以上就支持了。

主要思路:

字符串的分解,可以使用数字辅助表,然后cross join刷副本,然后根本分隔符出现的位置然后切豁字符串拆解到我们需要的东东。(解决方案中我使用的递归CTE来处理找到对应的位置)

现在还需要多加一步,就是对拆解的部分进行验证和去重不符合要求的那一部。

使用LAG和LEAD的好处,就是不需要再用自连接去找到对应的下一条数据了。

本题的解题原则是如何长项能连接到正确的国家,则取长项的,否则取短项的。

代码如下:

 --准备示例表与数据

drop table my_countries;

drop table valid_country;

create table my_countries(rid int,country_name_cc varchar(200));

insert into my_countries(rid,country_name_cc) values(1,'china,test, public of');

insert into my_countries(rid,country_name_cc) values(2,'us, public of,china,Evan, public of');

create table valid_country(cid int, country_name varchar(30));

insert into valid_country(cid,country_name) values(1,'china');

insert into valid_country(cid,country_name) values(2,'test, public of');

insert into valid_country(cid,country_name) values(3,'Evan, public of');

insert into valid_country(cid,country_name) values(4,'us, public of');

insert into valid_country(cid,country_name) values(5,'Evan');

--select * from my_countries;

--select * from valid_country;

正确的结果是:

WITH SPLIT_COUNTRY AS

(

SELECT

RID,

1 AS LVL,

1 AS STARTPOS,

CHARINDEX(',',COUNTRY_NAME_CC+',')-1 AS ENDPOS

FROM MY_COUNTRIES

UNION ALL

SELECT

SC.RID,

LVL+1 AS LVL,

ENDPOS+2,

CHARINDEX(',',COUNTRY_NAME_CC+',',ENDPOS+2)-1

FROM

MY_COUNTRIES CC JOIN

SPLIT_COUNTRY SC ON CC.RID=SC.RID

WHERE CHARINDEX(',',CC.COUNTRY_NAME_CC+',',ENDPOS+2)>0

)

,CTE_COUNTRY AS (

SELECT RID,LVL,STARTPOS,ENDPOS,LEAD(ENDPOS,1) OVER(PARTITION BY RID ORDER BY LVL) AS NEXTENDPOS FROM SPLIT_COUNTRY

)

,CTE AS (

SELECT MC.RID,SC.LVL,

CASE WHEN NEXTENDPOS IS NOT NULL AND EXISTS (SELECT * FROM VALID_COUNTRY VC WHERE VC.COUNTRY_NAME = SUBSTRING(COUNTRY_NAME_CC,STARTPOS,NEXTENDPOS-STARTPOS+1)) THEN

SUBSTRING(COUNTRY_NAME_CC,STARTPOS,NEXTENDPOS-STARTPOS+1)

ELSE

SUBSTRING(MC.COUNTRY_NAME_CC,STARTPOS,ENDPOS-STARTPOS+1)

END

AS COUNTRY

FROM MY_COUNTRIES MC JOIN CTE_COUNTRY SC

ON MC.RID=SC.RID

)

,CHECK_VALID AS (

SELECT CASE WHEN CHARINDEX(',',LAG(COUNTRY,1) OVER(PARTITION BY RID ORDER BY LVL))>0 THEN 0 ELSE 1 END AS ISVALID,

* FROM CTE

)

SELECT CV.RID,CV.COUNTRY,VC.CID FROM CHECK_VALID CV JOIN VALID_COUNTRY VC

ON CV.COUNTRY = VC.COUNTRY_NAME

AND ISVALID=1 ORDER BY RID;

另一种方案,在第一种的基础上稍加修改:

WITH SPLIT_COUNTRY AS

(

SELECT

RID,

1 AS LVL,

1 AS STARTPOS,

CHARINDEX(',',COUNTRY_NAME_CC+',')-1 AS ENDPOS

FROM MY_COUNTRIES

UNION ALL

SELECT

SC.RID,

LVL+1 AS LVL,

ENDPOS+2,

CHARINDEX(',',COUNTRY_NAME_CC+',',ENDPOS+2)-1

FROM

MY_COUNTRIES CC JOIN

SPLIT_COUNTRY SC ON CC.RID=SC.RID

WHERE CHARINDEX(',',CC.COUNTRY_NAME_CC+',',ENDPOS+2)>0

)

,CTE_COUNTRY AS (

SELECT RID,LVL,STARTPOS,ENDPOS,LEAD(ENDPOS,1) OVER(PARTITION BY RID ORDER BY LVL) AS NEXTENDPOS FROM SPLIT_COUNTRY

)

,CTE AS (

SELECT MC.RID,SC.LVL,

SUBSTRING(MC.COUNTRY_NAME_CC,STARTPOS,ENDPOS-STARTPOS+1) AS COUNTRY,

SUBSTRING(COUNTRY_NAME_CC,STARTPOS,NEXTENDPOS-STARTPOS+1) AS COUNTRY2

FROM MY_COUNTRIES MC JOIN CTE_COUNTRY SC

ON MC.RID=SC.RID

)

SELECT CTE.RID,VC.COUNTRY_NAME,VC.CID

FROM

CTE JOIN VALID_COUNTRY VC

ON (CASE WHEN EXISTS(SELECT * FROM VALID_COUNTRY X WHERE X.COUNTRY_NAME=CTE.COUNTRY2) THEN CTE.COUNTRY2

ELSE CTE.COUNTRY END) = VC.COUNTRY_NAME

;

SQL-一道特殊的字符串分解题目的更多相关文章

  1. SQL Server中截取字符串常用函数

    SQL Server 中截取字符串常用的函数: .LEFT ( character_expression , integer_expression ) 函数说明:LEFT ( '源字符串' , '要截 ...

  2. 使用List把一个长字符串分解成若干个短字符串

    把一个长字符串分解成若干个固定长度的短字符串,由于事先不知道长字符串的长度,以及短字符串的数量,只能使用List. public static void get_list_sbody(String s ...

  3. sql server 查找包含字符串的对象

    sql server 查找包含字符串的对象 SELECT sm.object_id, OBJECT_NAME(sm.object_id) AS object_name, o.type, o.type_ ...

  4. java字符串分解 StringTokenizer用法(比split()方法效率高)

    Java中substring方法可以分解字符串,返回的是原字符串的一个子字符串.如果要讲一个字符串分解为一个一个的单词或者标记,StringTokenizer可以帮你. int countTokens ...

  5. SQL Server 中截取字符串常用的函数

    SQL Server 中截取字符串常用的函数: 1.LEFT ( character_expression , integer_expression ) 函数说明:LEFT ( '源字符串' , '要 ...

  6. sql server中截取字符串的常用函数

    我们如果要在sql server中,使用截取字符串的方法要怎样使用呢? sql server提供了3个常用截取字符串方法,LEFT().RIGHT().SUBSTRING() /****** Sql ...

  7. Sql动态查询拼接字符串的优化

    Sql动态查询拼接字符串的优化 最原始的 直接写:string sql="select * from TestTables where 1=1";... 这样的代码效率很低的,这样 ...

  8. java字符串分解 StringTokenizer用法

    Java中substring方法可以分解字符串,返回的是原字符串的一个子字符串.如果要讲一个字符串分解为一个一个的单词或者标记,StringTokenizer可以帮你. 先看个例子: 1 public ...

  9. XE4 TStringDynArray 比 c6 的TStringList 好用 字符串 分解 分割 转换 TByteDynArray

    TStringDynArray 动态数组  字符串 分解 分割  System::DynamicArray<System::UnicodeString> TByteDynArray,    ...

随机推荐

  1. 【循序渐进学Python】9.异常处理

    1. 抛出异常和自定义异常 Python用异常对象(exception object)表示异常情况,遇到错误后,会引发异常.如果异常对象并未被处理或捕捉,程序就会用所谓的回溯(Traceback,一种 ...

  2. 动态生成RDLC报表

    前段时间,做了RDLC报表,主要是三块功能: 1.从DataGrid提取(包括最新的增删改)的数据,自动生成对应的RDLC报表文件(以流的形式驻存在内存中),用ReportViewer类来展示.打印. ...

  3. Oracle备份表结构和数据

    --创建一份表结构 create table BASE_GOODSPAYMENT_SETTING_BAK as select * from BASE_GOODSPAYMENT_SETTING ; -- ...

  4. 【iOS】通知监听

    下例为:监听文本框  accountField  内容的改变, 当发生改变时, 调用textChange方法(多次).监听结束需要移除通知. - (void)viewDidLoad { [super ...

  5. python3.5.2爬虫

    话不多说,都在代码里 #下载斗鱼颜值栏目主播照片 #author:ives #date:2016-8-28 21:58 #e-mail:renhanlinbsl@163.com import urll ...

  6. 身份证校验(c++实现)

    描述: 我国国标[GB 11643-1999]中规定:公民身份号码是18位特征组合码,由十七位数字本体码和一位数字校验码组成.排列顺序从左至右依次为:六位数字地址码,八位数字出生日期码,三位数字顺序码 ...

  7. ASP.NET MVC 微信公共平台开发之 微信接入

    ASP.NET MVC 接入微信公共平台 申请微信公共账号 既然要接入微信公共平台,微信公共号是必须的(当然如果只是测试的话也可以申请微信公共平台接口测试账号),来这里微信公共平台 申请微信公共号(注 ...

  8. SharePoint 2013 术语和术语集介绍

    托管元数据是一个集中管理的术语的分层集合,我们可以定义术语和术语集,然后将其用作 SharePoint Server 2013 中项目的属性.简单的说,术语是一个可与 SharePoint Serve ...

  9. WebActivatorEx 注入时的使用

    WebActivator类库提供了3种功能,允许分别在Application_Start初始化之前,之后以及ShutDown的时候,分别执行指定的代码,并且允许多次指定.示例如下: [assembly ...

  10. 学习android学习必备的java基础知识--四大内部类

    学习android必备的java基础知识--四大内部类 今天学习android课程,因为我的主专业是JAVA,但是兴趣班却有这其他专业的同学,学习android 需要具备一些java的基础知识,因此就 ...