新系统上线,用户基数16万,各种查询timeout.打开砂锅问到底,直接看sql语句吧,都是泪呀,一大堆in\not in\except.这里总结一下,怎么替换掉in\not in\except. 1. in/except->left join 查询目的: 根据 客户表(Customer,按照站点.册本划分,16万数据) 水表表(Meter,16万数据) 水表抄表数据表(Meter_Data,远传表每天更新,27万数据) 关联查询,查询某天某个册本下水表未上传抄表数据的用户. 原查询结构 sel…
查询速度慢的原因很多,常见如下几种:    1.没有索引或者没有用到索引(这是查询慢最常见的问题,是程序设计的缺陷)    2.I/O吞吐量小,形成了瓶颈效应.    3.没有创建计算列导致查询不优化.    4.内存不足    5.网络速度慢    6.查询出的数据量过大(可以采用多次查询,其他的方法降低数据量)    7.锁或者死锁(这也是查询慢最常见的问题,是程序设计的缺陷)    8.sp_lock,sp_who,活动的用户查看,原因是读写竞争资源.    9.返回了不必要的行和列   …
MySQL之谓词下推 什么是谓词 在SQL中,谓词就是返回boolean值即true或者false的函数,或是隐式转换为boolean的函数.SQL中的谓词主要有 LKIE.BETWEEN.IS NULL.IS NOT NULL.IN.EXISTS 谓词下推的基本思想即: 将过滤表达式尽可能移动至靠近数据源的位置,以使真正执行时能直接跳过无关的数据. 传统数据库中的谓词下推: 在传统数据库的查询系统中谓词下推作为优化手段很早就出现了,谓词下推的目的就是通过将一些过滤条件尽可能的在最底层执行可以减…
京东云TiDB SQL层的背景介绍 从总体上概括 TiDB 和 MySQL 兼容策略,如下表: SQL层的架构 用户的 SQL 请求会直接或者通过 Load Balancer 发送到 京东云TiDB Server,TiDB Server 会解析 MySQL Protocol Packet,获取请求内容,对 SQL 进行语法解析和语义分析,制定和优化查询计划,执行查询计划并获取和处理数据.数据全部存储在 TiKV 集群中,所以在这个过程中 TiDB Server 需要和 TiKV 交互,获取数据.…
SQL优化清单 1.from 语句中包含多个表的情况下,把记录数少的表放在前面 2.where 语句中包含多个条件时,将刷选多的条件放前面 3.避免使用select * ,因为这样会去查询所有列的数据,这样会消耗更多的时间 4.在SQL语句的where 和join 部分中用到的所有字段上,应该加上索引 5.SQL是大小写不敏感的语言,但规范为大写…
听到谓词下推这个词,是不是觉得很高大上,找点资料看了半天才能搞懂概念和思想,借这个机会好好学习一下吧. 引用范欣欣大佬的博客中写道,以前经常满大街听到谓词下推,然而对谓词下推却总感觉懵懵懂懂,并不明白的很真切.这里拿出来和大家交流交流.个人认为谓词下推有两个层面的理解: 其一是逻辑执行计划优化层面的说法,比如SQL语句:select * from order ,item where item.id = order.item_id and item.category = 'book',正常情况语法…
本文由  网易云发布. 在之前的文章中简要介绍了Join在大数据领域中的使用背景以及常用的几种算法-broadcast hash join .shuffle hash join以及 sort merge join等,对每一种算法的核心应用场景也做了相关介绍,这里再重点说明一番:大表与小表进行join会使用broadcast hash join,一旦小表稍微大点不再适合广播分发就会选择shuffle hash join,最后,两张大表的话无疑选择sort merge join. 好了,问题来了,说…
本文首发于 vivo互联网技术 微信公众号 https://mp.weixin.qq.com/s/YPN85WBNcnhk8xKjTPTa2g 作者:李勇 目录: 1.SparkSql 2.连接查询和连接条件 3.谓词下推 4.内连接查询中的谓词下推规则 4.1.Join后条件通过AND连接 4.2.Join后条件通过OR连接 4.3.分区表使用OR连接过滤条件 1.SparkSql SparkSql 是架构在 Spark 计算框架之上的分布式 Sql 引擎,使用 DataFrame 和 Dat…
    sql优化核心 是数据库中 解析器+优化器的工作,我觉得主要有以下几个大方面:1>扫表的方法(索引非索引.主键非主键.书签查.索引下推)2>关联表的方法(三种),关键是内存如何利用3>处理排序聚合的方法,如何利用内存 即 少扫磁盘多用内存 --=====2 表关联方式-----0 概述类别 Nested Loop Hash Join Merge Join使用条件 任何条件 等值连接(=) 等值或非等值连接(>,<,=,>=,<=),‘<>’除外…
Hive优化之谓词下推 解释 Hive谓词下推(Predicate pushdown) 关系型数据库借鉴而来,关系型数据中谓词下推到外部数据库用以减少数据传输 基本思想:尽可能早的处理表达式 属于逻辑优化,优化器将谓词过滤下推到数据源,使物理执行跳过无关数据 参数打开设置:hive.optimize.ppd=true 两种生效形式 形式1: select a.id,a.value1,b.value2 from table1 a join (select b.* from table2 b whe…