SQL分词器1.10版

处理SQL及分词效果:

select * from ( select rownum as rn,tb1.stuid,tb1.summary from ( select stuid,sum(score) as summary from gk_score group by stuid order by summary desc ) tb1 order by tb1.summary desc ) tb2 where rn<11

Index                Type No              Text                 Type Desc

------------------------------------------------------------------------------------

0                    1                    select               KW:select

1                    2                    *                    Text

2                    4                    from                 KW:from

3                    18                   (                    (

4                    1                    select               KW:select

5                    2                    rownum               Text

6                    13                   as                   KW:as

7                    2                    rn                   Text

8                    3                    ,                    Comma

9                    2                    tb1.stuid            Text

10                   3                    ,                    Comma

11                   2                    tb1.summary          Text

12                   4                    from                 KW:from

13                   18                   (                    (

14                   1                    select               KW:select

15                   2                    stuid                Text

16                   3                    ,                    Comma

17                   2                    sum                  Text

18                   18                   (                    (

19                   2                    score                Text

20                   19                   )                    )

21                   13                   as                   KW:as

22                   2                    summary              Text

23                   4                    from                 KW:from

24                   2                    gk_score             Text

25                   14                   group                KW:group

26                   10                   by                   KW:by

27                   2                    stuid                Text

28                   9                    order                KW:order

29                   10                   by                   KW:by

30                   2                    summary              Text

31                   11                   desc                 KW:asc

32                   19                   )                    )

33                   2                    tb1                  Text

34                   9                    order                KW:order

35                   10                   by                   KW:by

36                   2                    tb1.summary          Text

37                   11                   desc                 KW:asc

38                   19                   )                    )

39                   2                    tb2                  Text

40                   5                    where                KW:where

41                   2                    rn                   Text

42                   16                   <                    <

43                   2                    11                   Text

程序:

package com.heyang.easysql.lex10;

import java.io.BufferedReader;

import java.io.FileInputStream;

import java.io.InputStreamReader;

import java.util.ArrayList;

import java.util.Collections;

import java.util.List;

class Token{

    static final int TYPE_SELECT=1;

    static final int TYPE_TEXT=2;

    static final int TYPE_COMMA=3;

    static final int TYPE_FROM=4;

    static final int TYPE_WHERE=5;

    static final int TYPE_AND=6;

    static final int TYPE_EQUAL=7;

    static final int TYPE_OR=8;

    static final int TYPE_ORDER=9;

    static final int TYPE_BY=10;

    static final int TYPE_ASC=11;

    static final int TYPE_DESC=12;

    static final int TYPE_AS=13;

    static final int TYPE_GROUP=14;

    static final int TYPE_HAVING=15;

    static final int TYPE_LESSTHAN=16;

    static final int TYPE_GREATERTHAN=17;

    static final int TYPE_OPEN_PARENTHESIS=18;

    static final int TYPE_CLOSE_PARENTHESIS=19;

    static final int TYPE_CONNECT=20;

    static final int TYPE_LESSTHAN_OR_EQUAL=21;

    static final int TYPE_GREATERTHAN_OR_EQUAL=22;

    static final int TYPE_LESSTHAN_OR_GREATERTHAN=23;

    static final int TYPE_CASE=24;

    static final int TYPE_WHEN=25;

    static final int TYPE_THEN=26;

    static final int TYPE_ELSE=27;

    static final int TYPE_END=28;

    static final int TYPE_IS=29;

    static final int TYPE_NULL=30;

    static final int TYPE_TRUE=31;

    static final int TYPE_FALSE=32;

    static final int TYPE_PLUS=33;

    static final int TYPE_MINUS=34;

    //static final int TYPE_MULTI=35;

    static final int TYPE_DEVIDE=36;

    static final int TYPE_DISTINCT=37;

    static final int TYPE_OVER=38;

    static final int TYPE_STRING_CONCAT=39;

    static final int TYPE_ON=40;

    static final int TYPE_JOIN=41;

    static final int TYPE_INNER=42;

    static final int TYPE_LEFT=43;

    static final int TYPE_RIGHT=44;

    static final int TYPE_OUTER=45;

    static final int TYPE_FULL=46;

    static final int TYPE_WITHIN=47;

    static final int TYPE_PARTITION=48;

    int type;

    String text;

    public Token(char c,int type) {

        this.text=String.valueOf(c);

        this.type=type;

    }

    public Token(String word,int type) {

        this.text=word;

        this.type=type;

    }

    public String getTypeStr() {

        if(type==TYPE_SELECT) {

            return "KW:select";

        }else if(type==TYPE_FROM) {

            return "KW:from";

        }else if(type==TYPE_COMMA) {

            return "Comma";

        }else if(type==TYPE_TEXT) {

            return "Text";

        }else if(type==TYPE_WHERE) {

            return "KW:where";

        }else if(type==TYPE_AND) {

            return "KW:and";

        }else if(type==TYPE_EQUAL) {

            return "=";

        }else if(type==TYPE_OR) {

            return "KW:or";

        }else if(type==TYPE_ORDER) {

            return "KW:order";

        }else if(type==TYPE_BY) {

            return "KW:by";

        }else if(type==TYPE_ASC) {

            return "KW:asc";

        }else if(type==TYPE_DESC) {

            return "KW:desc";

        }else if(type==TYPE_AS) {

            return "KW:as";

        }else if(type==TYPE_GROUP) {

            return "KW:group";

        }else if(type==TYPE_HAVING) {

            return "KW:having";

        }else if(type==TYPE_LESSTHAN) {

            return "<";

        }else if(type==TYPE_GREATERTHAN) {

            return ">";

        }else if(type==TYPE_OPEN_PARENTHESIS) {

            return "(";

        }else if(type==TYPE_CLOSE_PARENTHESIS) {

            return ")";

        }else if(type==TYPE_CONNECT) {

            return "KW:connect";

        }else if(type==TYPE_LESSTHAN_OR_EQUAL) {

            return "<=";

        }else if(type==TYPE_GREATERTHAN_OR_EQUAL) {

            return ">=";

        }else if(type==TYPE_LESSTHAN_OR_GREATERTHAN) {

            return "<>";

        }else if(type==TYPE_CASE) {

            return "KW:case";

        }else if(type==TYPE_WHEN) {

            return "KW:when";

        }else if(type==TYPE_THEN) {

            return "KW:then";

        }else if(type==TYPE_ELSE) {

            return "KW:else";

        }else if(type==TYPE_END) {

            return "KW:end";

        }else if(type==TYPE_IS) {

            return "KW:is";

        }else if(type==TYPE_NULL) {

            return "KW:null";

        }else if(type==TYPE_TRUE) {

            return "KW:true";

        }else if(type==TYPE_FALSE) {

            return "KW:false";

        }else if(type==TYPE_PLUS) {

            return "+";

        }else if(type==TYPE_MINUS) {

            return "-";

        }else if(type==TYPE_DEVIDE) {

            return "/";

        }else if(type==TYPE_DISTINCT) {

            return "KW:distinct";

        }else if(type==TYPE_OVER) {

            return "KW:over";

        }else if(type==TYPE_STRING_CONCAT) {

            return "||";

        }else if(type==TYPE_ON) {

            return "KW:on";

        }else if(type==TYPE_JOIN) {

            return "KW:join";

        }else if(type==TYPE_INNER) {

            return "KW:inner";

        }else if(type==TYPE_LEFT) {

            return "KW:left";

        }else if(type==TYPE_RIGHT) {

            return "KW:right";

        }else if(type==TYPE_OUTER) {

            return "KW:outer";

        }else if(type==TYPE_FULL) {

            return "KW:full";

        }else if(type==TYPE_WITHIN) {

            return "KW:within";

        }else if(type==TYPE_PARTITION) {

            return "KW:partition";

        }

        return null;

    }

}

public class Lexer {

    private List<Token> tokenList;

    public Lexer(String inputSql) {

        String sql=pretreat(inputSql);

        String swallowed="";

        tokenList=new ArrayList<Token>();

        for(int i=0;i<sql.length();i++){

            char c=sql.charAt(i);

            if(Character.isWhitespace(c)){

                addTextToList(swallowed);

                swallowed="";

            }else if(c==','){

                addTextToList(swallowed);

                swallowed="";

                tokenList.add(new Token(c,Token.TYPE_COMMA));

            }else if(c=='='){

                addTextToList(swallowed);

                swallowed="";

                tokenList.add(new Token(c,Token.TYPE_EQUAL));

            }else if(c=='<'){

                int next=i+1;

                if(next<sql.length() && sql.charAt(next)=='=') {

                    addTextToList(swallowed);

                    swallowed="";

                    tokenList.add(new Token("<=",Token.TYPE_LESSTHAN_OR_EQUAL));

                    i++;

                }else if(next<sql.length() && sql.charAt(next)=='>') {

                    addTextToList(swallowed);

                    swallowed="";

                    tokenList.add(new Token("<>",Token.TYPE_LESSTHAN_OR_GREATERTHAN));

                    i++;

                }else {

                    addTextToList(swallowed);

                    swallowed="";

                    tokenList.add(new Token(c,Token.TYPE_LESSTHAN));

                }

            }else if(c=='>'){

                int next=i+1;

                if(next<sql.length() && sql.charAt(next)=='=') {

                    addTextToList(swallowed);

                    swallowed="";

                    tokenList.add(new Token(">=",Token.TYPE_GREATERTHAN_OR_EQUAL));

                    i++;

                }else {

                    addTextToList(swallowed);

                    swallowed="";

                    tokenList.add(new Token(c,Token.TYPE_GREATERTHAN));

                }

            }else if(c=='|'){

                int next=i+1;

                if(next<sql.length() && sql.charAt(next)=='|') {

                    addTextToList(swallowed);

                    swallowed="";

                    tokenList.add(new Token("||",Token.TYPE_STRING_CONCAT));

                    i++;

                }

            }else if(c=='('){

                addTextToList(swallowed);

                swallowed="";

                tokenList.add(new Token(c,Token.TYPE_OPEN_PARENTHESIS));

            }else if(c==')'){

                addTextToList(swallowed);

                swallowed="";

                tokenList.add(new Token(c,Token.TYPE_CLOSE_PARENTHESIS));

            }else if(c=='+'){

                addTextToList(swallowed);

                swallowed="";

                tokenList.add(new Token(c,Token.TYPE_PLUS));

            }else if(c=='-'){

                addTextToList(swallowed);

                swallowed="";

                tokenList.add(new Token(c,Token.TYPE_MINUS));

            }else if(c=='/'){

                addTextToList(swallowed);

                swallowed="";

                tokenList.add(new Token(c,Token.TYPE_DEVIDE));

            }else {

                swallowed+=c;

            }

        }

    }

    private int findTypeByText(String text) {

        Object[][] arr= {

                            {"select", Token.TYPE_SELECT},

                            {"from",   Token.TYPE_FROM},

                            {"where",  Token.TYPE_WHERE},

                            {"and",    Token.TYPE_AND},

                            {"or",     Token.TYPE_OR},

                            {"order",  Token.TYPE_ORDER},

                            {"by",     Token.TYPE_BY},

                            {"asc",    Token.TYPE_ASC},

                            {"desc",   Token.TYPE_ASC},

                            {"asc",    Token.TYPE_DESC},

                            {"as",     Token.TYPE_AS},

                            {"group",  Token.TYPE_GROUP},

                            {"having", Token.TYPE_HAVING},

                            {"connect", Token.TYPE_CONNECT},

                            {"case",   Token.TYPE_CASE},

                            {"when",   Token.TYPE_WHEN},

                            {"then",   Token.TYPE_THEN},

                            {"else",   Token.TYPE_ELSE},

                            {"end",   Token.TYPE_END},

                            {"is",   Token.TYPE_IS},

                            {"null",   Token.TYPE_NULL},

                            {"true",   Token.TYPE_TRUE},

                            {"false",   Token.TYPE_FALSE},

                            {"distinct",   Token.TYPE_DISTINCT},

                            {"over",   Token.TYPE_OVER},

                            {"on",   Token.TYPE_ON},

                            {"join",   Token.TYPE_JOIN},

                            {"inner",   Token.TYPE_INNER},

                            {"left",   Token.TYPE_LEFT},

                            {"right",   Token.TYPE_RIGHT},

                            {"outer",   Token.TYPE_OUTER},

                            {"full",   Token.TYPE_FULL},

                            {"within",   Token.TYPE_WITHIN},

                            {"partition",   Token.TYPE_PARTITION},

                        };

        for(Object[] arrInner:arr) {

            String keyword=String.valueOf(arrInner[0]);

            if(keyword.equalsIgnoreCase(text)) {

                return Integer.parseInt(arrInner[1].toString());

            }

        }

        return Token.TYPE_TEXT;

    }

    private void addTextToList(String text) {

        int type=findTypeByText(text);

        addToken2List(text,type);

    }

    private void addToken2List(String text,int type) {

        if(text.trim().length()>0) {

            tokenList.add(new Token(text,type));

        }

    }

    public void printTokenList() {

        final String continuousStar = createRepeatedStr("-", 84);

        final String layout = "%-20s %-20s %-20s %-20s %s";

        StringBuilder sb = new StringBuilder();

        sb.append(String.format(layout, "Index", "Type No","Text","Type Desc","\n"));

        sb.append(continuousStar + "\n");

        int index=0;

        for(Token token:tokenList) {

            sb.append(String.format(layout, String.valueOf(index),String.valueOf(token.type), token.text,token.getTypeStr(),"\n"));

            index++;

        }

        System.out.println(sb.toString());

    }

    private static String createRepeatedStr(String seed, int n) {

        return String.join("", Collections.nCopies(n, seed));

    }

    private String pretreat(String raw) {

        return raw.trim()+" ";

    }

    public static void main(String[] args)  throws Exception{

        String sql=removeExtraSpace(readSqlFromFile("c:\\temp\\12.sql"));

        System.out.println(sql);

        new Lexer(sql).printTokenList();;

    }

    private static String readSqlFromFile(String filePath) throws Exception{

        StringBuilder sb=new StringBuilder();

        BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(filePath), "UTF-8"));

        String line = null;

        while( ( line = br.readLine() ) != null ) {

            sb.append(line);

        }

        br.close();

        return sb.toString();

    }

    private static String removeExtraSpace(String raw) {

        return raw.replaceAll("\\s{2,}", " ");

    }

}

--2020年5月13日 16点07分--

SQL分词器1.10版的更多相关文章

elasticsearch安装ik分词器（极速版）
简介:下面讲有我已经打包并且编辑过的zip包,你可以在下面下载即可. 1.下载zip包.elasticsearch-analysis-ik-1.8.0.jar下面有附件链接[ik-安装包.zip],下 ...
elasticsearch 6.2.4 安装 elasticsearch-analysis-ik 分词器 (windows 10下)
访问 https://github.com/medcl/elasticsearch-analysis-ik 找 releases 找到对应的 es 版本下载 elasticsearch-analy ...
用lucene4.10.2分词器进行分词
import java.util.Iterator; import java.util.LinkedList; import java.util.List; import org.apache.luc ...
Solr4.10与tomcat整合并安装中文分词器
1.solr Solr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器.Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置.可扩展,并对索引. ...
Elasticsearch教程（三），IK分词器安装（极速版）
如果只想快速安装IK,本教程管用.下面看经过. 简介: 下面讲有我已经打包并且编辑过的zip包,你可以在下面下载即可. 当前讲解的IK分词器包的 version 为1.8. 一.下载zip包. 下面 ...
5.Solr4.10.3中配置中文分词器
转载请出自出处:http://www.cnblogs.com/hd3013779515/ 1.下载IK Analyzer 2012FF_hf1.zip并上传到/home/test 2.按照如下命令安装 ...
Elasticsearch(10) --- 内置分词器、中文分词器
Elasticsearch(10) --- 内置分词器.中文分词器这篇博客主要讲:分词器概念.ES内置分词器.ES中文分词器. 一.分词器概念 1.Analysis 和 Analyzer Analy ...
11大Java开源中文分词器的使用方法和分词效果对比，当前几个主要的Lucene中文分词器的比较
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
Lucene.Net+盘古分词器(详细介绍)(转)
出处:http://www.cnblogs.com/magicchaiy/archive/2013/06/07/LuceneNet%E7%9B%98%E5%8F%A4%E5%88%86%E8%AF%8 ...

随机推荐

C#/.Net集成RabbitMQ
RabbitMQ简介消息 (Message) 是指在应用间传送的数据.消息可以非常简单,比如只包含文本字符串. JSON 等,也可以很复杂,比如内嵌对象. 消息队列中间件 (Message Queu ...
2020重新出发，JAVA学前了解，DOS常用命令
什么是 DOS ? DOS(Disk Operating System)是一个使用得十分广泛的磁盘操作系统. 常见的DOS有两种:IBM公司的PC-DOS ** 和微软公司的MS-DOS,它们的功能 ...
Vue 内联模板(inline-template)
内联模板不会把子组件的内容分发渲染到父组件中而是需要在父组件中实现其内容的渲染父组件 <template> <div> <template-inline inline ...
elementUI 表单清空问题
在使用表单的清空方法时,我们需要注意几个问题: 1.我们需要为每个form-item加上prop属性,要不然无法清空(大部分的问题就是出在这) 2.resetFields()方法是重置表单,重置为默认 ...
zabbix-4.4.4安装教程（亲测可用）
1.首先添加yum源zabbix.repo [zabbix]name=zabbixbaseurl=https://mirrors.tuna.tsinghua.edu.cn/zabbix/zabbix/ ...
在Linux使用虚拟环境
定义 “虚拟环境”,是python解释器的一个私有副本.在这个环境中,你可以安装私有包,而且不会影响系统中安装的全局python解释器. 作用为每个程序单独创建虚拟环境时,可以保证程序只能访问虚拟环 ...
Istio 网络弹性实践之故障注入和调用超时
网络弹性介绍网络弹性也称为运维弹性,是指网络在遇到灾难事件时快速恢复和继续运行的能力.灾难事件的范畴很广泛,比如长时间停电.网络设备故障.恶意入侵等. 超时时间工作中常常会碰到这样的开发.测试场景 ...
偏序分块+bitset
题目描述给定一个有\(n\)个元素的序列,元素编号为\([1,n]\),每个元素有\(k\)个属性\(p_1,p_2,p_3,...,p_k\) ,求序列中满足 \(i<j\)且 \(1 \l ...
团队作业4：第七篇Scrum冲刺博客（歪瑞古德小队）
目录一.Daily Scrum Meeting 1.1 会议照片 1.2 项目进展二.项目燃尽图三.签入记录 3.1 代码/文档签入记录 3.2 Code Review 记录 3.3 issue ...
python实现对列表的增删查修操作
#定义一个空列表 list_demo=[] #1,向列表中插入元素 def append_demo(): #第一种使用append,可以在列表末尾添加一个函数 for i in range(2): l ...

SQL分词器1.10版

SQL分词器1.10版的更多相关文章

随机推荐

热门专题