知方可补不足~SQL为大数据引入分区表

回到目录一些概念分区表在oracle和sqlserver中都上存在的,当数据表的数据量过大时,上千万,上亿的数据,在进行数据查询时需要显得比较慢,性能很差,这时是时候引入分区表了,分区表顾名思义,就是把物理表用一些文件NDF进行分块存储,以缓减IO的压力,因为当你的SQL文件过大的,这其实对系统的IO影响是最大的,这种分区表我感觉类似于数据的分片(mongodb),它将有效的利用服务器的CPU多核资源,并行去处理你的请求,所以在大数据情况下,分区表是很好的一种选择! 我们通常也把电脑的磁盘分…

知方可补不足~SQL中的count命令的一些优化措施（百万以上数据明显）

回到目录 SQL中对于求表记录总数的有count这个聚合命令,这个命令给我们感觉就是快,比一般的查询要快,但是,当你的数据表记录比较多时,如百万条,千万条时,对于count来说,就不是那么快了,我们需要掌握一些技巧,来优化这个count. 有人说: select count(1) from table select count(primarykey) from table 比较快,一定不要用 select count(*) from table 可我要说的是,count(*)更快一些,为什么呢,…

知方可补不足~SQL数据库用户的克隆，SQL集群的用户同步问题

我们知道在为sqlserver建立功能数据库时,通过会为库再建立一个登陆名,而这个登陆名时,只用来管理这个数据库,这是安全的,正确的.…

知方可补不足~Sqlserver发布订阅与sql事务的关系

回到目录前几讲说了一下通过sqlserver的发布与订阅来实现数据的同步,再通过EF这个ORM架构最终实现架构系统的读写分离,而在使用发布与订阅来实现数据同步时,需要我们注意几点,那就是当操作被使用在“事务上下文”时,你的同步操作有可能会被延时,嘟嘟! 这个不难理解,我们都知道事务有一些级别,而最高级别serializable 又是.net TransactionScope默认的级别,所以,在程序开发中,只要用了事务,基本都是serializable,而这个级别是最安全的,当然对于SQL来说,…

什么是SQL Server2019大数据群集？

从SQL Server 2019(15.x)开始,SQL Server大数据群集允许您部署在Kubernetes上运行的SQL Server,Spark和HDFS容器的可伸缩群集.这些组件并排运行,使您能够从Transact-SQL或Spark读取,写入和处理大数据,从而使您可以轻松地将高价值的关系数据与大容量的大数据结合并进行分析. 有关最新版本的新功能和已知问题的更多信息,请参见发行说明. 情境 SQL Server大数据群集为您与大数据进行交互提供了灵活性.您可以查询外部数据源,将大数据存…

知方可补不足~用SqlProfiler来监视数据库死锁

回到目录关于锁的相关知识,大家可以看我的这篇文章<知方可补不足~Sqlserver中的几把锁和.net中的事务级别> 死锁我想大家都知道,当一个对话(线程)占用一个资源时,别一个线程也同时去访问它,并且其中一个优化级高的对话将SQL锁状态提升为X锁(排它锁)后,其一个对话将会被作为“牺牲品”抛弃,这种现象在SQLSERVER中就叫做死锁,引起死锁的原因有很多,一般在网上被前人总结为四点 1.互斥使用(资源独占) 一个资源每次只能给一个进程使用 2.不可强占(不可剥夺) 资源申请者不…

C# & SQL Server大数据量插入方式对比

以下内容大部分来自: http://blog.csdn.net/tjvictor/article/details/4360030 部分内容出自互联网,实验结果为亲测. 最近自己开发一个向数据库中插入大量历史数据的函数库,需要解决一个大数据量插入的效率问题.不用分析,我知道如果采取逐条数据插入的方式,那么效率肯定很低,光是那么多循环就知道很慢了.于是乎,我找到了上篇博客,知道了BulkCopy和TVPs方式.为了更好的了解其效率,我自己动手亲测了一下效果,测试的数据库位于本机. (1)方式1:循环…

Microsoft Soft SQL Server 大数据----分区表性能测试

分区表 MSSQL有一个大数据储存方案,可以提高效率那就是分区表. 使用起来跟普通表没有区别.至于具体原理自己度娘吧. 真正性能的提高,是依赖于硬件的加入.也是就说,当把一个表设置成分区表,每一个分区,应该储放在不同的硬盘的. 如果分区表使用的是同一块硬盘,那么性能是不会有提高. 组装电脑本身案例,将使用三块硬盘储存,将一个表设三个分区. 好啦,吃饱就开始干活啦,先组装好电脑,为了三块硬盘,我将其它二台电脑,我把它们... 好了,开始装系统,Windows为了方便,我还是装GUI的系统吧. 成…

SQL Server 大数据量insert into xx select慢的解决方案

最近项目有个需求,把一张表中的数据根据一定条件增删改到另外一张表.按理说这是个很简单的SQL.可是在实际过程中却出现了超级长时间的执行过程. 后来经过排查发现是大数据量insert into xx select造成. 原因在于当insert into xx select数据量达到10万级别,同时又有Update和Delete操作表.容易造成锁表. 经过研究重构了SQL语句问题解决.具体解决方案如下: 1.update 和Delete操作当成一个事务处理 2.Insert into前先删除索引 3…

[转]Sql server 大数据量分页存储过程效率测试附代码

本文转自:http://www.cnblogs.com/lli0077/archive/2008/09/03/1282862.html 在项目中,我们经常遇到或用到分页,那么在大数据量(百万级以上)下,哪种分页算法效率最优呢?我们不妨用事实说话. 测试环境硬件:CPU 酷睿双核T5750 内存:2G 软件:Windows server 2003 + Sql server 2005 OK,我们首先创建一数据库:data_Test,并在此数据库中创建一表:tb_TestTable GO…

SQL优化-大数据量分页优化

百万数据量SQL,在进行分页查询时会出现性能问题,例如我们使用PageHelper时,由于分页查询时,PageHelper会拦截查询的语句会进行两个步骤 1.添加 select count(*)from (原查询sql) ,用于统计查询的总数 2.拼接 limit startPage,number 用于分页此时有两个问题第一个问题是: 用于统计的 select count(*)from (原查询sql)在数据量大时速度慢第二个问题时: limit startPage,number 在大数据…

入门大数据---Hive分区表和分桶表

一.分区表 1.1 概念 Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大. 分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中.如果查询的 where 字句的中包含分区条件,则直接从该分区去查找,而不是扫描整个表目录,合理的分区设计可以极大提高查询速度和性能. 这里说明一下分区表并 Hive 独有的概念,实际上这个概念非常常见.比如在我们常用的 Oracle 数据库中,当表中的数据量不断增大,查询数据的速度就会下降,…

知方可补不足~sqlserver中使用sp_who查看sql的进程

回到目录在SQLSERVER中每个会话,即每个查询分析器窗口都会产生一个SQL进程,对于那些持续时间短的进程,它们转瞬即失,而对于持续时间比较长的,我们需要希望查看它的运行状态,就可以借助SQL提供的sp_who命令,下面是对它的具体介绍,主要选自MSDN. sp_who [ [ @loginame = ] 'login' | session ID | 'ACTIVE' ]你可以在sp_who后面加你的SPID号(sessionID),登陆名,线程状态等…

知方可补不足~SQL2005使用ROW_NUMBER() OVER()进行数据分页

回到目录数据分页是这个经常说的东西,无论在WEBForm还是WinForm中它都会被单独拿出来,或者是公用组件,或者是公用类库,反正对于数据分页这个东西,总是我们关注的一个话题,但事实上,数据分页归根结底是数据库的东西,更直接的说,它是数据表的范畴,对于一个SQL请求来说,你要取数据,要取多少条,从哪条开始取,这事实上就是分页实现的原理. SQL更新到2005版之后,为开发者提供了不少函数,ROW_NUMBER() OVER ()就是其中之一,它可以为你的结果集生成一个行号,并可以快速的主位到…

知方可补不足~powerDesign为模型添加注释（让生成的SQL有注释）

事实上powerDesign本身就有这个功能,不需要我们修改它的生成器了,这种方法够简单! 一打开表模型,选择column标签…

SQL Server 大数据搬迁之文件组备份还原实战

一.本文所涉及的内容(Contents) 本文所涉及的内容(Contents) 背景(Contexts) 解决方案(Solution) 搬迁步骤(Procedure) 搬迁脚本(SQL Codes) 注意事项(Attention) 疑问(Questions) 参考文献(References) 二.背景(Contexts) 有一个数据库大概在700G左右,需要从服务器A搬迁到服务器B,两台服务器网络传输速度可以达到8MB/s,怎么做才能更快的搬迁并且宕机时间最短呢? 数据库业务逻辑概述:这个数据库…

知方可补不足~利用LogParser将IIS日志插入到数据库

回到目录 LogParser是微软开发的一个日志分析工具,它是命令行格式的,我们通过这个工具,可以对日志文件进行操作,对于一个几百兆的log文件,使用记事本打开是件很残酷的事,所以,很多情况下,我们都会将大日志文件的内容插入到数据库中,这样有利于我们更好的去分析系统的日志. 脚本中心给它的定义 Log Parser 2.2 是一个功能强大的通用工具,它可对基于文本的数据(如日志文件.XML 文件和 CSV 文件)以及 Windows 操作系统上的重要数据源(如事件日志.注册表.文件系统和 Act…

知方可补不足～sqlserver中的几把锁~续

回到目录之前写过相关的文章,对脏读,不可重复读,幻读都做了相当的研究,而今天在程序中又出现了这个问题,即当一条数据被update时,另一个线程同时发起了读的操作,这对于序列化级别的事务是不被允许的,正常情况下它应该被阻塞,当事务消失时,数据从新被读取. 一些术语-来自百度百科更新丢失两个事务都同时更新一行数据,一个事务对数据的更新把另一个事务对数据的更新覆盖了.这是因为系统没有执行任何的锁操作,因此并发事务并没有被隔离开来. 脏读一个事务读取到了另一个事务未提交的数据操作结果.这是相当危…

SQL Server 大数据量分页建议方案

简单的说就是这个 select top(20) * from( select *, rowid = row_number() over(order by xxx) from tb with(nolock) ) data where rowid > 0 order by rowid 或者这样写 select * from( select *, rowid = row_number() over(order by xxx) from tb with(nolock) ) data where rowi…

知方可补不足~sqlserver中触发器的使用

回到目录触发器在过去的10年中,即存储过程和ado.net称霸江湖期间是那么的重要,而现在,trigger显得不是那么必要的,我们很少将复杂的业务写在SQL里,当然也会没有机会写到trigger里了,可对于数据库本身来说,这东西还是要说说的,尤其是一些特殊场合,看看下面的触发器使用场合:…

知方可补不足~SQL2008中的发布与订阅模式

回到目录作用:完成数据库与数据库的数据同步原理:源数据库发布需要同时的表,存储过程,或者函数:目标数据库去订阅它,当源发生变化时,目标数据库自己同步,注意,由于这个过程是SQL自动完成的,所以要求“启动SQL代理服务”. 一源数据库建立一个本地发布:…

知方可补不足~row_number,rank,dense_rank,ntile排名函数的用法

回到目录这篇文章介绍SQL中4个很有意思的函数,我称它的行标函数,它们是row_number,rank,dense_rank和ntile,下面分别进行介绍. 一 row_number:它为数据表加一个叫“行标示”的列,它在数据表中是连续的,我们必须按着某个顺序把表排序之后,才能使用row_number,看下列例子: SELECT row_number() OVER ( ORDER BY SalePrice ) AS row , * FROM Product 结果表被加上了行号:…

知方可补不足~Sqlserver中的几把锁和.net中的事务级别

回到目录当数据表被事务锁定后,我们再进行select查询时,需要为with(锁选项)来查询信息,如果不加,select将会被阻塞,直到锁被释放,下面介绍几种SQL的锁选项 SQL的几把锁 NOLOCK(不加锁) 此选项被选中时,SQL Server 在读取或修改数据时不加任何锁. 在这种情况下,用户有可能读取到未完成事务(Uncommited Transaction)或回滚(Roll Back)中的数据, 即所谓的“脏数据”. HOLDLOCK(保持锁) 此选项被选中时,SQL Server…

知方可补不足~用CDC功能来对数据库变更进行捕捉

回到目录如果我们希望监视一个数据表的变化,在sql2008之前的版本里,在数据库端可能想到的只有触发器,或者在程序端通过监视自己的insert,update,delete来实现相应的功能,这种实现无疑是让我们感到恐惧的,不够灵活的,而当进行sql2008后,这种情况得到了本质的改变,sql2008为我们提供了CDC功能,它可以实时对指定的数据表进行监控,当前它同时对产生SQL的一些负载. CDC工作流程 CDC功能主要捕获SQLServer指定表的增删改操作,由于任何操作都会写日志(哪怕tru…

知方可补不足~SqlServer自动备份数据库及清理备份文件

回到目录对于SQLSERVER这个关系型数据库来说,为了保持数据的安全,备份是必须的,当你的一个误操作导致数据丢失,这可能是灾难性的,是不被允许发生的,这时,我们必须要做好定期的备份工作,如我们可以每天0点为指定数据库做一个完整的备份,每周未在0点去清理上一周的备份文件,这样可以避免磁盘容量无穷的增长. 备份数据库使用了SQL-管理-维护计划-维护计划向导…

知方可补不足~Sqlserver中的几把锁和.net中的事务级别回到目录

当数据表被事务锁定后,我们再进行select查询时,需要为with(锁选项)来查询信息,如果不加,select将会被阻塞,直到锁被释放,下面介绍几种SQL的锁选项 SQL的几把锁 NOLOCK(不加锁) 此选项被选中时,SQL Server 在读取或修改数据时不加任何锁. 在这种情况下,用户有可能读取到未完成事务(Uncommited Transaction)或回滚(Roll Back)中的数据, 即所谓的“脏数据”. HOLDLOCK(保持锁) 此选项被选中时,SQL Server 会将此共享…

sql server 大数据，统计分组查询，数据量比较大计算每秒钟执行数据执行次数

-- 数据量比较大的情况,统计十分钟内每秒钟执行次数 ); -- 开始时间 ); -- 结束时间 declare @num int; -- 结束时间 set @begintime = '2019-08-10 09:10:00' -- 开始时间 set @endtime = '2019-08-10 09:20:00' -- 结束时间 ) ),loginTime, ) ),loginTime, ) <= @endtime) print(@num) select @num as 总条数, AVG(调用…