Hive SQL解析过程

SQL->AST(Abstract Syntax Tree)->Task（MapRedTask，FetchTask）->QueryPlan（Task集合）->Job（Yarn）

SQL解析会在两个地方进行：

一个是SQL执行前compile，具体在Driver.compile，为了创建QueryPlan；
一个是explain，具体在ExplainSemanticAnalyzer.analyzeInternal，为了创建ExplainTask；

SQL执行过程

1 compile过程（SQL->AST(Abstract Syntax Tree)->QueryPlan）

org.apache.hadoop.hive.ql.Driver

  public int compile(String command, boolean resetTaskIds, boolean deferClose) {

...

      ParseDriver pd = new ParseDriver();

      ASTNode tree = pd.parse(command, ctx);

      tree = ParseUtils.findRootNonNullToken(tree);

...

      BaseSemanticAnalyzer sem = SemanticAnalyzerFactory.get(queryState, tree);

...

        sem.analyze(tree, ctx);

...

      // Record any ACID compliant FileSinkOperators we saw so we can add our transaction ID to

      // them later.

      acidSinks = sem.getAcidFileSinks();

      LOG.info("Semantic Analysis Completed");

      // validate the plan

      sem.validate();

      acidInQuery = sem.hasAcidInQuery();

      perfLogger.PerfLogEnd(CLASS_NAME, PerfLogger.ANALYZE);

      if (isInterrupted()) {

        return handleInterruption("after analyzing query.");

      }

      // get the output schema

      schema = getSchema(sem, conf);

      plan = new QueryPlan(queryStr, sem, perfLogger.getStartTime(PerfLogger.DRIVER_RUN), queryId,

        queryState.getHiveOperation(), schema);

...

compile过程为先由ParseDriver将SQL转换为ASTNode，然后由BaseSemanticAnalyzer对ASTNode进行分析，最后将BaseSemanticAnalyzer传入QueryPlan构造函数来创建QueryPlan；

1）将SQL转换为ASTNode过程如下（SQL->AST(Abstract Syntax Tree)）

org.apache.hadoop.hive.ql.parse.ParseDriver

  public ASTNode parse(String command, Context ctx, boolean setTokenRewriteStream)

      throws ParseException {

    if (LOG.isDebugEnabled()) {

      LOG.debug("Parsing command: " + command);

    }

    HiveLexerX lexer = new HiveLexerX(new ANTLRNoCaseStringStream(command));

    TokenRewriteStream tokens = new TokenRewriteStream(lexer);

    if (ctx != null) {

      if ( setTokenRewriteStream) {

        ctx.setTokenRewriteStream(tokens);

      }

      lexer.setHiveConf(ctx.getConf());

    }

    HiveParser parser = new HiveParser(tokens);

    if (ctx != null) {

      parser.setHiveConf(ctx.getConf());

    }

    parser.setTreeAdaptor(adaptor);

    HiveParser.statement_return r = null;

    try {

      r = parser.statement();

    } catch (RecognitionException e) {

      e.printStackTrace();

      throw new ParseException(parser.errors);

    }

    if (lexer.getErrors().size() == 0 && parser.errors.size() == 0) {

      LOG.debug("Parse Completed");

    } else if (lexer.getErrors().size() != 0) {

      throw new ParseException(lexer.getErrors());

    } else {

      throw new ParseException(parser.errors);

    }

    ASTNode tree = (ASTNode) r.getTree();

    tree.setUnknownTokenBoundaries();

    return tree;

  }

2）analyze过程（AST(Abstract Syntax Tree)->Task）

org.apache.hadoop.hive.ql.parse.BaseSemanticAnalyzer

  public void analyze(ASTNode ast, Context ctx) throws SemanticException {

    initCtx(ctx);

    init(true);

    analyzeInternal(ast);

  }

其中analyzeInternal是抽象方法，由不同的子类实现，比如DDLSemanticAnalyzer，SemanticAnalyzer，UpdateDeleteSemanticAnalyzer，ExplainSemanticAnalyzer等；
analyzeInternal主要的工作是将ASTNode转化为Task，包括可能的optimize，过程比较复杂，这里不贴代码；

3）创建QueryPlan过程如下（Task->QueryPlan）

org.apache.hadoop.hive.ql.QueryPlan

  public QueryPlan(String queryString, BaseSemanticAnalyzer sem, Long startTime, String queryId,

                  HiveOperation operation, Schema resultSchema) {

    this.queryString = queryString;

    rootTasks = new ArrayList<Task<? extends Serializable>>(sem.getAllRootTasks());

    reducerTimeStatsPerJobList = new ArrayList<ReducerTimeStatsPerJob>();

    fetchTask = sem.getFetchTask();

    // Note that inputs and outputs can be changed when the query gets executed

    inputs = sem.getAllInputs();

    outputs = sem.getAllOutputs();

    linfo = sem.getLineageInfo();

    tableAccessInfo = sem.getTableAccessInfo();

    columnAccessInfo = sem.getColumnAccessInfo();

    idToTableNameMap = new HashMap<String, String>(sem.getIdToTableNameMap());

    this.queryId = queryId == null ? makeQueryId() : queryId;

    query = new org.apache.hadoop.hive.ql.plan.api.Query();

    query.setQueryId(this.queryId);

    query.putToQueryAttributes("queryString", this.queryString);

    queryProperties = sem.getQueryProperties();

    queryStartTime = startTime;

    this.operation = operation;

    this.autoCommitValue = sem.getAutoCommitValue();

    this.resultSchema = resultSchema;

  }

可见只是简单的将BaseSemanticAnalyzer中的内容拷贝出来，其中最重要的是sem.getAllRootTasks和sem.getFetchTask；

2 execute过程（QueryPlan->Job）

org.apache.hadoop.hive.ql.Driver

  public int execute(boolean deferClose) throws CommandNeedRetryException {

...

      // Add root Tasks to runnable

      for (Task<? extends Serializable> tsk : plan.getRootTasks()) {

        // This should never happen, if it does, it's a bug with the potential to produce

        // incorrect results.

        assert tsk.getParentTasks() == null || tsk.getParentTasks().isEmpty();

        driverCxt.addToRunnable(tsk);

      }

...

      // Loop while you either have tasks running, or tasks queued up

      while (driverCxt.isRunning()) {

        // Launch upto maxthreads tasks

        Task<? extends Serializable> task;

        while ((task = driverCxt.getRunnable(maxthreads)) != null) {

          TaskRunner runner = launchTask(task, queryId, noName, jobname, jobs, driverCxt);

          if (!runner.isRunning()) {

            break;

          }

        }

...

  private TaskRunner launchTask(Task<? extends Serializable> tsk, String queryId, boolean noName,

      String jobname, int jobs, DriverContext cxt) throws HiveException {

...

    TaskRunner tskRun = new TaskRunner(tsk, tskRes);

...

      tskRun.start();

...

      tskRun.runSequential();

...

Driver.run中从QueryPlan中取出Task，并逐个launchTask，launchTask过程为将Task包装为TaskRunner，并最终调用TaskRunner.runSequential，下面看TaskRunner：

org.apache.hadoop.hive.ql.exec.TaskRunner

  public void runSequential() {

    int exitVal = -101;

    try {

      exitVal = tsk.executeTask();

...

这里直接调用Task.executeTask

org.apache.hadoop.hive.ql.exec.Task

  public int executeTask() {

...

      int retval = execute(driverContext);

...

这里execute是抽象方法，由子类实现，比如DDLTask，MapRedTask等，着重看MapRedTask，因为大部分的Task都是MapRedTask：

org.apache.hadoop.hive.ql.exec.mr.MapRedTask

  public int execute(DriverContext driverContext) {

...

      if (!runningViaChild) {

        // we are not running this mapred task via child jvm

        // so directly invoke ExecDriver

        return super.execute(driverContext);

      }

...

这里直接调用父类方法，也就是ExecDriver.execute，下面看：

org.apache.hadoop.hive.ql.exec.mr.ExecDriver

  protected transient JobConf job;

...

  public int execute(DriverContext driverContext) {

...

    JobClient jc = null;

    MapWork mWork = work.getMapWork();

    ReduceWork rWork = work.getReduceWork();

...

    if (mWork.getNumMapTasks() != null) {

      job.setNumMapTasks(mWork.getNumMapTasks().intValue());

    }

...

    job.setNumReduceTasks(rWork != null ? rWork.getNumReduceTasks().intValue() : 0);

    job.setReducerClass(ExecReducer.class);

...

      jc = new JobClient(job);

...

      rj = jc.submitJob(job);

      this.jobID = rj.getJobID();

...

这里将Task转化为Job提交到Yarn执行；

SQL Explain过程

另外一个SQL解析的过程是explain，在ExplainSemanticAnalyzer中将ASTNode转化为ExplainTask：

org.apache.hadoop.hive.ql.parse.ExplainSemanticAnalyzer

  public void analyzeInternal(ASTNode ast) throws SemanticException {

...

    ctx.setExplain(true);

    ctx.setExplainLogical(logical);

    // Create a semantic analyzer for the query

    ASTNode input = (ASTNode) ast.getChild(0);

    BaseSemanticAnalyzer sem = SemanticAnalyzerFactory.get(queryState, input);

    sem.analyze(input, ctx);

    sem.validate();

    ctx.setResFile(ctx.getLocalTmpPath());

    List<Task<? extends Serializable>> tasks = sem.getAllRootTasks();

    if (tasks == null) {

      tasks = Collections.emptyList();

    }

    FetchTask fetchTask = sem.getFetchTask();

    if (fetchTask != null) {

      // Initialize fetch work such that operator tree will be constructed.

      fetchTask.getWork().initializeForFetch(ctx.getOpContext());

    }

    ParseContext pCtx = null;

    if (sem instanceof SemanticAnalyzer) {

      pCtx = ((SemanticAnalyzer)sem).getParseContext();

    }

    boolean userLevelExplain = !extended

        && !formatted

        && !dependency

        && !logical

        && !authorize

        && (HiveConf.getBoolVar(ctx.getConf(), HiveConf.ConfVars.HIVE_EXPLAIN_USER) && HiveConf

            .getVar(conf, HiveConf.ConfVars.HIVE_EXECUTION_ENGINE).equals("tez"));

    ExplainWork work = new ExplainWork(ctx.getResFile(),

        pCtx,

        tasks,

        fetchTask,

        sem,

        extended,

        formatted,

        dependency,

        logical,

        authorize,

        userLevelExplain,

        ctx.getCboInfo());

    work.setAppendTaskType(

        HiveConf.getBoolVar(conf, HiveConf.ConfVars.HIVEEXPLAINDEPENDENCYAPPENDTASKTYPES));

    ExplainTask explTask = (ExplainTask) TaskFactory.get(work, conf);

    fieldList = explTask.getResultSchema();

    rootTasks.add(explTask);

  }

【原创】大数据基础之Hive（2）Hive SQL执行过程之SQL解析过程的更多相关文章

【原创】大数据基础之Spark（4）RDD原理及代码解析
一简介 spark核心是RDD,官方文档地址:https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-di ...
CentOS6安装各种大数据软件第八章：Hive安装和配置
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
【原创】大数据基础之Benchmark（2）TPC-DS
tpc 官方:http://www.tpc.org/ 一简介 The TPC is a non-profit corporation founded to define transaction pr ...
【原创】大数据基础之Zookeeper（2）源代码解析
核心枚举 public enum ServerState { LOOKING, FOLLOWING, LEADING, OBSERVING; } zookeeper服务器状态:刚启动LOOKING,f ...
【原创】大数据基础之Hive（5）性能调优Performance Tuning
1 compress & mr hive默认的execution engine是mr hive> set hive.execution.engine;hive.execution.eng ...
【原创】大数据基础之Hive（1）Hive SQL执行过程之代码流程
hive 2.1 hive执行sql有两种方式: 执行hive命令,又细分为hive -e,hive -f,hive交互式: 执行beeline命令,beeline会连接远程thrift server ...
【原创】大数据基础之Hive（5）hive on spark
hive 2.3.4 on spark 2.4.0 Hive on Spark provides Hive with the ability to utilize Apache Spark as it ...
【原创】大数据基础之Hive（3）最简绿色部署
hadoop部署参考:https://www.cnblogs.com/barneywill/p/10428098.html 1 拷贝到所有服务器上并解压 # ansible all-servers - ...
了解大数据的技术生态系统 Hadoop,hive,spark(转载)
首先给出原文链接: 原文链接大数据本身是一个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你能够把它比作一个厨房所以须要的各种工具. 锅碗瓢盆,各 ...

随机推荐

jeecg字典表-系统字典
新建字典录入字典信息添加类型录入完类型后效果新建列表用户保存同步数据库同步完之后,对应的数据库中会创建对应的表. 测试表功能保存之后,数据库保存对应的字段生成代码刷新工程之后,生成 ...
iview render input每输入一个字符就会自动跳出焦点
假如你绑定的table的数据是tableData,input数据改变的时候你把整行的数据替换掉,就不会造成table重新渲染,导致input失焦了 h('InputNumber', { props: ...
软件工程(GZSD2015) 第二次作业文档模板
题目: (此处列出题目) 需求分析: 基本功能基本功能点1 基本功能点2 ... 扩展功能(可选) 高级功能(可选) 设计设计点1 设计点2 ... 代码实现 // code here 程序截图 ...
window.onload 与 $(document).ready() 的区别
以浏览器装载文档为例,在页面加载完毕后,浏览器会通过 JavaScript 为 DOM 元素添加事件.在常规的 JavaScript 代码中,通常使用 window.onload 方法 ,而在 jQu ...
jQuery对页面的操作
一.对元素内容和值进行操作 1.对元素内容操作 [text()]:获取值. [text(val)]:获取并修改值. [html()]:获取值. [html(val)]:获取并修改值,与text的区别在 ...
利用window.performance.timing进行性能分析
性能分析... window.performance.timing中相关属性语义: // .navigationStart 准备加载页面的起始时间 // .unloadEventStart 如果前一个 ...
皮尔逊相关系数（Pearson Correlation Coefficient, Pearson's r）
Pearson's r,称为皮尔逊相关系数(Pearson correlation coefficient),用来反映两个随机变量之间的线性相关程度. 用于总体(population)时记作ρ (rh ...
数据分析---《Python for Data Analysis》学习笔记【02】
<Python for Data Analysis>一书由Wes Mckinney所著,中文译名是<利用Python进行数据分析>.这里记录一下学习过程,其中有些方法和书中不同 ...
Mybatis Generator的model生成中文注释,支持oracle和mysql(通过实现CommentGenerator接口的方法来实现)
自己手动实现的前提,对maven项目有基本的了解,在本地成功搭建了maven环境,可以参考我之前的文章:maven环境搭建项目里新建表时model,mapper以及mapper.xml基本都是用My ...
Spring中的AOP 专题
Caused by: java.lang.IllegalArgumentException: ProceedingJoinPoint is only supported for around advi ...

【原创】大数据基础之Hive（2）Hive SQL执行过程之SQL解析过程