作者:韩信子@ShowMeAI

数据分析实战系列https://www.showmeai.tech/tutorials/40

本文地址https://www.showmeai.tech/article-detail/391

声明:版权所有,转载请联系平台与作者并注明出处

收藏ShowMeAI查看更多精彩内容

所有的数据相关工作人员,包括数据开发、数据分析师、数据科学家等,多多少少会使用数据库,我们很多的业务数据也是存放在业务表中。但即使是同一个需求,不同人写出的 SQL 效率上也会有很大差别,而我们在数据岗位面试的时候,也会考察相关的技能和思考,在本篇文章中,ShowMeAI将给大家梳理 SQL 中可以用于优化效率和提速的核心要求。

关于 SQL 的基础技能知识,欢迎大家查阅ShowMeAI制作的速查表:

编程语言速查表 | SQL 速查表

1)使用正则regexp_like代替LIKE

如下例所示,当我们要进行模糊匹配的时候(尤其是匹配项很多的时候),我们使用regexp_like代替LIKE可以提高效率。

低效代码

SELECT *
FROM phones
WHERE
lower(name) LIKE '%samsing&' OR
lower(name) LIKE '%apple&' OR
lower(name) LIKE '%htc&' OR

高效代码

SELECT *
FROM phones
WHERE
REGEXP_LIKE(lower(name),'samsung|apple|htc')

2)使用regexp_extract代替 Case-when Like

类似的,使用regexp_extract代替Case-when Like可以提高效率。

低效代码

SELECT *
CASE
WHEN concat(' ', name, ' ') LIKE '%acer%' then 'Acer'
WHEN concat(' ', name, ' ') LIKE '%samsung%' then 'Samsung'
WHEN concat(' ', name, ' ') LIKE '%dell%' then 'Dell'
AS brand
FROM laptops

高效代码

SELECT
regexp_extract(name,'(acer|samsung|dell)')
AS brand
FROM laptops

3)IN子句转换为临时表

但我们进行数据选择时候,有时候会用到in作为条件选择,如果我们的候选项非常多,那利用临时表可能会带来更好的效率。

低效代码

SELECT *
FROM table1 as t1
WHERE
itemid in (3363134, 5343, 5555555)

高效代码

SELECT *
FROM table 1 as t1
JOIN (
SELECT
itemid
FROM (
SELECT
split('3363134, 5343, 5555555') as bar
)
CROSS JOIN
UNNEST(bar) AS t(itemid)
) AS table2 as t2
ON
t1.itemid = t2.itemid

4)将 JOIN 的表从大到小排序

当我们要进行表关联(join)的时候,我们可以对表基于大小进行一个排序,把大表排在前面,小表排在后面,也会带来效率的提升。

低效代码

SELECT *
FROM small_table
JOIN large_table
ON small_table.id = large_table.id

高效代码

SELECT *
FROM large_table
JOIN small_table
ON small_table.id = large_table.id

5)使用简单的表关联条件

如果我们要基于条件对两个表进行连接,那条件中尽量不要出现复杂函数,如果一定需要使用,那我们可以先用函数对表的数据处理产出用于连接的字段。

如下例中,我们对ab表进行连接,条件是b表的「年」「月」「日」拼接后和a表的日期一致,那粗糙的写法和优化的写法分别如下:

低效代码

SELECT *
FROM table1 a
JOIN table2 b
ON a.date = CONCAT(b.year, '-', b.month, '-', b.day)

高效代码

SELECT *
FROM table1 a
JOIN (
SELECT name, CONCAT(b.year, '-', b.month, '-', b.day) as date
FROM table2 b
) new
ON a.date = new.date

6)分组的字段按照类别取值种类数排序

如果我们需要对数据按照多个字段分组,尤其是字段中有id类这种取值非常多的类别字段,我们应当把它排在最前面,这也可以对效率有一些帮助。

低效代码

SELECT
main_category,
sub_category,
itemid
sum(price)
FROM
table1
GROUP BY
main_category, sub_category, itemid

高效代码

SELECT
main_category,
sub_category,
itemid
sum(price)
FROM
table1
GROUP BY
itemid, sub_category, main_category

7)避免 WHERE 子句中的子查询

当我们要查询的语句的where条件中包含子查询时,我们可以通过with语句构建临时表来调整连接条件,提升效率,如下:

错误代码

SELECT sum(price)
FROM table1
WHERE itemid in (
SELECT itemid
FROM table2
)

好代码

WITH t2
AS (SELECT itemid
FROM table2)
SELECT Sum(price)
FROM table1 AS t1
JOIN t2
ON t1.itemid = t2.itemid

8)取最大直接用Max而非Rank后取第1

这一条很好理解,如果我们要取某字段最大取值,我们直接使用 max,而不要用 rank 排序后取第 1,如下代码所示:

低效代码

SELECt *
FROM (
SELECT userid, rank() over (order by prdate desc) as rank
FROM table 1
)
WHERE ranking = 1

高效代码

SELECT userid, max(prdate)
FROM table1
GROUP BY 1

9)其他优化点

  • 对于大表,利用approx_distinct()代替count(distinct)来计数。
  • 对于大表,利用approx_percentie(metric,0.5)代替median
  • 尽可能避免使用UNION

参考资料

推荐阅读

私藏!资深数据专家SQL效率优化技巧 ⛵的更多相关文章

  1. Oracle SQL性能优化技巧大总结

    http://wenku.baidu.com/link?url=liS0_3fAyX2uXF5MAEQxMOj3YIY4UCcQM4gPfPzHfFcHBXuJTE8rANrwu6GXwdzbmvdV ...

  2. Oracle SQL 性能优化技巧

    Select语句完整的执行顺序: SQL Select语句完整的执行顺序: 1. from子句组装来自不同数据源的数据: 2.where子句基于指定的条件对记录行进行筛选: 3.group by子句将 ...

  3. SQL性能优化技巧

    作者:IT王小二 博客:https://itwxe.com 这里就给小伙伴们带来工作中常用的一些 SQL 性能优化技巧总结,包括常见优化十经验.order by 与 group by 优化.分页查询优 ...

  4. SQLSERVER SQL性能优化技巧

    这篇文章主要介绍了SQLSERVER SQL性能优化技巧,需要的朋友可以参考下 1.选择最有效率的表名顺序(只在基于规则的优化器中有效)       SQLSERVER的解析器按照从右到左的顺序处理F ...

  5. SQL Server优化技巧——如何避免查询条件OR引起的性能问题

    之前写过一篇博客"SQL SERVER中关于OR会导致索引扫描或全表扫描的浅析",里面介绍了OR可能会引起全表扫描或索引扫描的各种案例,以及如何优化查询条件中含有OR的SQL语句的 ...

  6. SQL Server优化技巧——如何避免查询条件OR引起的性能问题

    原文:SQL Server优化技巧--如何避免查询条件OR引起的性能问题 之前写过一篇博客"SQL SERVER中关于OR会导致索引扫描或全表扫描的浅析",里面介绍了OR可能会引起 ...

  7. sql数据库优化技巧汇总

    (转)SQL 优化原则 一.问题的提出 在应用系统开发初期,由于开发数据库数据比较少,对于查询SQL语句,复杂视图的的编写等体会不出SQL语句各种写法的性能优劣,但是如果将应用系统提交实际应用后,随着 ...

  8. sql大数据量查询的优化技巧

    1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...

  9. SQL Server优化技巧之SQL Server中的"MapReduce"

    日常的OLTP环境中,有时会涉及到一些统计方面的SQL语句,这些语句可能消耗巨大,进而影响整体运行环境,这里我为大家介绍如何利用SQL Server中的”类MapReduce”方式,在特定的统计情形中 ...

  10. ORACLE百万记录SQL语句优化技巧

    1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...

随机推荐

  1. SQL注入篇——sqli-labs各关卡方法介绍

    主要是记下来了每关通过可以采用的注入方式,可能部分关卡的通关方式写的不全面,欢迎指出,具体的获取数据库信息请手动操作一下. 环境初始界面如下: sql注入流程语句: order by 3--+ #判断 ...

  2. Nginx反代服务器进阶学习最佳配置实践指南

    转载自:https://www.bilibili.com/read/cv16150010?spm_id_from=333.999.0.0 0x00 编译实践 描述:在企业线上生产环境中推荐进行Ngin ...

  3. ES重要配置解析

    path.data和path.logs 如果您使用.zip或.tar.gz存档,则data和logs 目录是子文件夹$ES_HOME.如果这些重要文件夹保留在其默认位置,则在将Elasticsearc ...

  4. 防火墙:iptable和firewalld常用操作

    iptables //安装iptables-service yum install iptables-services //编辑config文件 vi /etc/sysconfig/iptables ...

  5. kubernetes 查看pod 的容器日志

    1.pod若处于运行状态,则通过kubectl logs 即可 # 查看指定pod的日志 kubectl logs <pod_name> kubectl logs -f <pod_n ...

  6. (四)JPA - JQPL 实现增删改查

    (一)JPA的快速入门 建议在需要使用时,看看之前的文章,先把环境搭起来. 5.JPQL JPQL和SQL 1.JPQL和SQL很像,查询关键字都是一样的 2.唯一的区别是:JPQL是面向对象的 JP ...

  7. CentOS obs直播RTMP协议推流到Nginx流媒体服务器到VUE使用HLS直播

    1. 发布打包前端管理平台(ant-design-vue) 2. 发布打包后端(.NET6-WebApi) .NET6 webAPI orm: free sql 数据库:mysql5.7 3. 发布打 ...

  8. C# 使用原生 System.IO.Compression 实现 zip 的压缩与解压

    zip 是一个非常常见的压缩包格式,本文主要用于说明如何使用代码 文件或文件夹压缩为 zip压缩包及其解压操作, 我们采用的是 微软官方的实现,所以也不需要安装第三方的组件包. 使用的时候记得 usi ...

  9. ERP 系统最重要的是什么?

    ERP系统最重要的就是内部业务逻辑,这也是ERP复杂.专业性的体现!ERP系统可以算是当今最复杂的应用系统,也是最昂贵的,头部厂商一套系统动辄上千万,实施费用也常常达到千万级,实施周期动辄半年一年的, ...

  10. cmd常用命令介绍

    一.cdm命令介绍:CMD命令是一种命令提示符,CMD是command的缩写,即命令提示符(CMD),位于C:\Windows\System32的目录下,是在OS/2,Win为基础的操作系统(包括Wi ...