面试官:有操作过Linux吗?

我:有的呀

面试官:我想查看内存的使用情况该用什么命令

我:free 或者 top

面试官:那你说一下用free命令都可以看到啥信息

我:那,如下图所示 可以看到内存以及缓存的使用情况

  • total 总内存
  • used 已用内存
  • free 空闲内存
  • buff/cache 已使用的缓存
  • avaiable 可用内存

面试官:那你知道怎么清理已使用的缓存吗(buff/cache)

我:em… 不知道

面试官:sync; echo 3 > /proc/sys/vm/drop_caches就可以清理buff/cache了,你说说我在线上执行这条命令做好不好?

我:(送分题,内心大喜)好处大大的有,清理出缓存我们就有更多可用的内存空间, 就跟pc上面xx卫士的小火箭一样,点一下,就释放出好多的内存

面试官:em…., 回去等通知吧

再谈SQL Join

面试官:换个话题,谈谈你对join的理解

我:好的(再答错就彻底完了,把握住机会)

回顾

SQL中的join可以根据某些条件把指定的表给结合起来并将数据返回给客户端

join的方式有

inner join 内连接

left join 左连接

right join 右连接

full join 全连接

面试官:在项目开发中如果需要使用join语句,如何优化提升性能?

我:分为两种情况,数据规模小的,数据规模大的。

面试官: 然后?

我:对于

1.数据规模较小 全部干进内存就完事了嗷

2.数据规模较大

  • 可以通过增加索引来优化join语句的执行速度
  • 可以通过冗余信息来减少join的次数
  • 尽量减少表连接的次数,一个SQL语句表连接的次数不要超过5次

面试官:可以总结为join语句是相对比较耗费性能,对吗?

我:是的

面试官: 为什么?

缓冲区

我: 在执行join语句的时候必然要有一个比较的过程

面试官: 是的

我:逐条比较两个表的语句是比较慢的,因此我们可以把两个表中数据依次读进一个内存块中, 以MySQL的InnoDB引擎为例,使用以下语句我们必然可以查到相关的内存区域show variables like '%buffer%'

如图所示join_buffer_size的大小将会影响我们join语句的执行性能

面试官: 除此之外呢?

一个大前提

我:任何项目终究要上线,不可避免的要产生数据,数据的规模又不可能太小

面试官: 是这样的

我:大部分数据库中的数据最终要保存到硬盘上,并且以文件的形式进行存储。

以MySQL的InnoDB引擎为例

  • InnoDB以页(page)为基本的IO单位,每个页的大小为16KB
  • InnoDB会为每个表创建用于存储数据的.ibd文件

验证

我:这意味着我们有多少表要连接就需要读多少个文件,虽然可以利用索引,但还是免不了频繁的移动硬盘的磁头

面试官:也就是说频繁的移动磁头会影响性能对吧

我:是的,现在的开源框架不都喜欢说自己通过顺序读写大大的提升了性能吗,比如hbase、kafka

面试官:说的没错,那你认为Linux有对此做出优化吗?提示,你可以再执行一次free命令看一下

我:奇怪缓存怎么占用了1.2G多

面试官:你有没有想过

  • buff/cache 里面存的是什么?
  • 为什么buff/cache 占了那么多内存,可用内存即availlable还有1.1G?
  • 为什么你可以通过两条命令来清理buff/cache占用的内存,而想要释放used只能通过结束进程来实现?

品,你细品

思考了几分钟后

我:这么随便就释放了buff/cache所占用的内存,说明它就不重要, 清除它不会对系统的运行造成影响

面试官: 不完全对

我:难道是?想起来《CSAPP》(深入理解计算机系统)里面说过一句话

存储器层次结构的本质是,每一层存储设备都是较低一层设备的缓存

通俗来说,就是说Linux会把内存当作是硬盘的高速缓存

面试官:现在知道那道送分题应该怎么回答了吧

我:我….

Join算法

面试官:再给你个机会,如果让你来实现Join算法你会怎么做?

我:无索引的话,嵌套循环就完事了嗷。有索引的话,则可以利用索引来提升性能.

面试官:说回join_buffer 你认为join_buffer里面存储的是什么?

我:在扫描过程中,数据库会选择一个表把他要返回以及需要进行和其他表进行比较的数据放进join_buffer

面试官:有索引的情况下是怎么处理的?

我:这个就比较简单了,直接读取两个表的索引树进行比较就完事了嗷,我这边介绍一下无索引的处理方式

Nested Loop Join

嵌套循环,每次只读取表中的一行数据,也就是说如果outerTable有10万行数据, innerTable有100行数据,需要读取10000000次(假设这两个表的文件没有被操作系统给缓存到内存, 我们称之为冷数据表)

当然现在没啥数据库引擎使用这种算法(太慢了)

Block nested loop

Block 块,也就是说每次都会取一块数据到内存以减少I/O的开销

当没有索引可以使用的时候,MySQL InnoDB 就会使用这种算法

考虑以下两个表 t_a 和t_b

当无法使用索引执行join操作的时候,InnoDB会自动使用Block nested loop 算法

为什么代码规范要求SQL语句不要过多的join?的更多相关文章

  1. 代码规范--捡拾(SQL语句)

    最近在看阿里的JAVA开发手册,话不多说进入正题. 1.[强制]不使用count(列名)或者是count(常量)代替count(*) 因为count(*)会统计NULL值,前面的两个不会 2.[强制] ...

  2. 关于在Java代码中写Sql语句需要注意的问题

    最近做程序,时不时需要自己去手动将sql语句直接写入到Java代码中,写入sql语句时,需要注意几个小问题. 先看我之前写的几句简单的sql语句,自以为没有问题,但是编译直接报错. String st ...

  3. 1.代码规范之 if 语句编写

    最近在看项目代码的时候, 看到需要判断的地方,出现了if的多重嵌套,  甚至是出现了十几层的嵌套, 代码的阅读性非常之差. 简单的举个例子(这里只是两层的嵌套): public class demo ...

  4. SQL语句 in和inner join各有什么优点

    比如A1表 100W行 A2表50W行select a.* from A1 a where a.column1 in (select b.column1 from A2 b where b.colum ...

  5. sql语句中的left join,right join,inner join的区别

    left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录 right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录 inner join(等值连接) ...

  6. 【代码总结】SQL语句设计

    1.根据空值(NULL)检索条件 select * from user where age is not null; //查询年龄为null的所有用户 2.使用IN进行范围对比查询 ,5的所有用户 , ...

  7. sql语句中的 inner join 、 left join 、 right join、 full join 的区别

    简单明了地说,连接分内连接和外链接 假设有A和B两张表 内连接:inner join   表示把AB表的记录相符都显示出来,把AB表不符合条件的都排除 外连接分三种,即左连接(LEFT OUTER J ...

  8. sql语句优化:用join取代not in

    不要太多使用not in查询,最好用表连接来取代它.如: select ID,name from Table_A where ID not in (select ID from Table_B) 这句 ...

  9. sql语句之union与join的区别

    union查询: 使用 union 可以将多个select语句的查询结果组合起来. 语法: select 字段1,字段2 from table1 union select 字段1,字段2 from t ...

随机推荐

  1. featuretools的几个高级特性

    摘要:记录工作中用到的featuretools的部分高级特性. 1.防止信息泄露 在调用dfs时,将主表的观测时间列连同id列作为cutoff_time,可以在构造特征时自动将子表中在cutoff_t ...

  2. 8张图带你了解iptables的前世今生

    1 安全技术和防火墙 1 安全技术和防火墙 入侵检测系统(Intrusion Detection Systems):特点是不阻断任何网络访问,量化.定位来自内 外网络的威胁情况,主要以提供报警和事后监 ...

  3. HDU - 3347 Calculate the expression — 模拟 + map存变量

    传送门 题意:从输入开始,1.输入样例数:2.然后输入一组样例中的行数n:3.前n-1行为定义变量(之间使用空格隔开),只需要map存进去就可以了(这里有覆盖的情况,故使用mp["s&quo ...

  4. Python数模笔记-Sklearn(4)线性回归

    1.什么是线性回归? 回归分析(Regression analysis)是一种统计分析方法,研究自变量和因变量之间的定量关系.回归分析不仅包括建立数学模型并估计模型参数,检验数学模型的可信度,也包括利 ...

  5. 有关80386cpu在保护模式下的虚拟地址,线性地址和实际物理地址的关系

    80386cpu是8086cpu的升级版,其具有32位的寄存器.(32根地址线和32根数据线) 8086cpu其是16位的寄存器但是其地址线有20根,其寻址范围为2的20次方,但是有一个16位的寄存器 ...

  6. 图扑软件正式加入腾讯智维生态发展计划,智能 IDC 开启数字经济新征程

    4 月 23 日,主题为<智汇科技,维新至善>的腾讯数据中心智维技术研讨会在深圳胜利召开,发布了腾讯智维 2.0 技术体系,深度揭秘了智维 2.0 新产品战略和技术规划.图扑软件(High ...

  7. xxl-job的一些感悟与规范

    后台计划任务设计思路: 日志埋点处理,便于prd排查问题 2种主动job搭配规范(正向job.反查job) 1种消息接收的处理规范,重试机制,返回状态 job开关维度 数据流图 线上暗job-便捷性- ...

  8. java集合-数组ArrayList

    1.简介 ArrayList是java集合框架常用的集合类之一,底层是基于数组来实现容量大小动态变化的. 2.类图(JDK 1.8) 下图是ArrayList实现的接口和继承的类关系图: public ...

  9. 用JIRA管理你的项目——(二)JIRA语言包支持及插件支持

    昨天兴奋地把JIRA环境搭好,瞅了一眼管理界面--全英文,真是汗! 尚且不说全中文版管理界面让人操作起来多少会有困难,更别说是全英文! 昨天赞叹JIRA语言包支持丰富,今天终于找到了号称100%的语言 ...

  10. too many open files问题详解

    too many open files问题详解 feelgood3000关注0人评论2616人阅读2018-08-23 09:47:52   一  单个进程打开文件句柄数过多 ulimit中的nofi ...