SAS中的Order By - Proc Sort
1.排序proc sort
proc sort在按数据集中某一个变量或几个变量的升序或降序将记录重新排列,并把结果保存在输出数据集中,如果不另外指定输出数据集,则覆盖输入数据集。
在data步和proc步某些操作中,当需要用到by语句时,一般都需要源数据集按照by语句中的变量事先排序,这里就需要用到proc
sort。
By - Proc Sort">
(1)语法格式
PROC SORT ;
BY variable-1 <... variable-n>;
proc sort一些常用的选项:
·数据集选项
data= 输入数据集,缺省时使用最近创建的数据集
out= 输出数据集,缺省时表示排序后覆盖源数据集
·排序序列选项
sortseq=
指定排序的序列,这跟使用的操作系统有关,Windows/Unix都是ASCII编码,一般这个选项缺省就行;也可以直接在proc
sort后面加上编码名称。
·修改排序次序的选项
reverse
使用由正常排序序列相反的排序序列对字符变量进行排序,可以被by语句中的descending选项取代,reverse只能用于字符变量。
equals|noequals
规定输出数据集中具有相同by变量的那些记录的次序,equals选项是保持在输入数据集中原来的相对次序,而noequals选项则没有这一限制。
·删除重复记录的选项
noduprecs 删除重复的记录,发生在排序后,将完全相同的记录删除。
nodupkey
删除重复的by变量记录,发生在排序中,sort过程读取输入数据集中的记录,在写入输出数据集时先比较by变量值,如有重复则部写入输出数据集。这个选项要小心使用,因为SAS会删除by变量重复的记录,而不管该记录是不是重复的,这样就会丢失有效的数据。
·其他选项
datecopy
保留数据集创建或修改的日期,缺省时排序也会被认为是修改,上次的修改时间就会被覆盖,可是有些时候我们并不希望SAS这么做。
force 强制排序,不管输入数据集是否已经排序或有索引,都进行重新排序
内存与磁盘优化选项排序在各种语言中是一种基本的算法,当数据集很大时会占用大量的计算机资源,这些选项提供算法在这方面的优化。
by语句
缺省情况下,是按照变量进行升序排列(ascending),降序则要显性的用descending指明。
特别的是,这两个关键字应该写在变量的前面,而其他语言可能相反,如SQL将排序关键字放在变量之后。
(2)运行机制
proc
sort会先检查输入数据集的排序信息,特别是sortedby=选项,如果输入数据集提示已经按照by变量进行过排序,或者sort过程检测到数据集中记录的顺序按照by变量本来就是有序的,则proc
sort就会偷懒,不进行排序,直接将输入数据集复制到输出数据集中;另外,如果输入数据集在by变量上已经创建索引,则也不进行排序,因为排序之后会破坏原来的索引。除此之外,proc
sort才会进行排序。
那么,如果用户要强制sort过程进行排序呢?那就需要用到force选项了。
(3)实例
对数据集按年龄大小进行排序,相同年龄的观测仍然按原来的次序。
proc sort data=age equals;http://www.cda.cn/view/18248.html
by age;
run;
SAS中的Order By - Proc Sort的更多相关文章
- Hive中的order by、sort by、distribute by、cluster by解释及测试
结论: order by:全局排序,这也是4种排序手段中唯一一个能在终端输出中看出全局排序的方法,只有一个reduce,可能造成renduce任务时间过长,在严格模式下,要求必须具备limit子句. ...
- 2.12 Hivet中order by,sort by、distribute by和cluster by
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SortBy 一.order by 对全局数据的排序,仅仅只有一个red ...
- SAS中的聚类分析方法总结
SAS中的聚类分析方法总结 说起聚类分析,相信很多人并不陌生.这篇原创博客我想简单说一下我所理解的聚类分析,欢迎各位高手不吝赐教和拍砖. 按照正常的思路,我大概会说如下几个问题: 1. 什么是 ...
- PROC SORT
PROC SORT DATA=输入数据集 <OUT=输出数据集><选项>; BY 关键变量; RUN; PROC SORT 语法如上,其中在尖括号中的可以不出现,也不会报错. ...
- Hive中的Order by与关系型数据库中的order by语句的异同点
在Hive中,ORDER BY语句是对查询结果集进行整体的排序,最终将会产生一个reducer进行全局的排序,达到的最终结果是和传统的关系型数据库是一样的. 在数据量非常大的时候,全局排序的单个red ...
- mysql中的order by
一.order by的原理 1.利用索引的有序性获取有序数据 当查询语句的 order BY 条件和查询的执行计划中所利用的 Index 的索引键(或前面几个索引键)完全一致,且索引访问方式为 ran ...
- hive的排序 order by和sort by
在算法中,各个排序算法的复杂度都比较高,正常情况下为O (nlogn) ,所以当数据量特别大的时候,对数组进行排序消耗都很大. 因为hive的计算引擎MapReduce是分布式系统, 利用分布式的特点 ...
- 在UPDATE中更新TOP条数据以及UPDATE更新中使用ORDER BY
正常查询语句中TOP的运用: SELECT TOP 1000 * FROM MP_MemberGrade 随意更新一张表中满足条件的前N条数据: UPDATE TOP (1) MP_Member ...
- SAS中常见的数组函数
SAS中常见的数组函数有: dim dimk hbound hboundk lbound lboundk 数组函数计萁数组的维数.上下界,有利于写出可移植的程序,数组函数包括:dim(x) 求数组x第 ...
随机推荐
- Show Me the Code
最近在练习写Python代码,拥有150多道程序员面试题的LeetCode注重算法的实现,锻炼思维,还能在线测试代码的正确性,而Python练习册涉及到了Python实际的应用,锻炼解决问题的能力,托 ...
- canvas添加事件
https://blog.csdn.net/xundh/article/details/78722744
- 微信、qq网页二次分享
二次分享是指,在APP或者浏览器分享到微信或者qq,然后从微信或者qq再分享到别的平台.如果不处理,再次分享出去的图片或者标题就不会显示,对用户非常不友好. 一.微信二次分享 官方接入文档:https ...
- 同一客户端多个git账号的配置
同一客户端多个git账号的配置 同一客户端多个git账号的配置 步骤一:用ssh-keygen命令生成一组新的id_rsa_new和id_rsa_new.pub. 1 ssh-keygen -t rs ...
- indexDB的概念
IndexDB利用数据键(key)访问,通过索引功能搜索数据,适用于大量的结构化数据,如日历,通讯簿或者记事本. 1. 以key/value成对保存数据 IndexDB和WebStorage都是以数据 ...
- gcc版本切换
查看安装的gcc版本 sudo update--alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-5 100 显示所有版本gcc路径 sudo ...
- C语言获取当前时间
#include <stdio.h> #include <time.h> void main () { time_t rawtime; struct tm * timeinfo ...
- Oracle 数据库恢复命令
前提是oracle服务能正常启动,但是客户端怎么都连接不上. 首先打开命令行,输入:sqlplus / as sysdba; 回车 连上数据库后,屏幕会显示:已连接到空闲例程. 接下来在SQL> ...
- java 发红包案例
- 公私钥,数字证书,https
1.密钥对,在非对称加密技术中,有两种密钥,分为私钥和公钥,私钥是密钥对所有者持有,不可公布,公钥是密钥对持有者公布给他人的. 2.公钥,公钥用来给数据加密,用公钥加密的数据只能使用私钥解密. 3.私 ...