SAS中的Order By - Proc Sort

1.排序proc sort

proc sort在按数据集中某一个变量或几个变量的升序或降序将记录重新排列，并把结果保存在输出数据集中，如果不另外指定输出数据集，则覆盖输入数据集。

在data步和proc步某些操作中，当需要用到by语句时，一般都需要源数据集按照by语句中的变量事先排序，这里就需要用到proc
sort。

By - Proc Sort">

(1)语法格式

PROC SORT ;

BY variable-1 <... variable-n>;

proc sort一些常用的选项：

·数据集选项

data= 输入数据集，缺省时使用最近创建的数据集

out= 输出数据集，缺省时表示排序后覆盖源数据集

·排序序列选项

sortseq=
指定排序的序列，这跟使用的操作系统有关，Windows/Unix都是ASCII编码，一般这个选项缺省就行；也可以直接在proc
sort后面加上编码名称。

·修改排序次序的选项

reverse
使用由正常排序序列相反的排序序列对字符变量进行排序，可以被by语句中的descending选项取代，reverse只能用于字符变量。

equals|noequals
规定输出数据集中具有相同by变量的那些记录的次序，equals选项是保持在输入数据集中原来的相对次序，而noequals选项则没有这一限制。

·删除重复记录的选项

noduprecs 删除重复的记录，发生在排序后，将完全相同的记录删除。

nodupkey
删除重复的by变量记录，发生在排序中，sort过程读取输入数据集中的记录，在写入输出数据集时先比较by变量值，如有重复则部写入输出数据集。这个选项要小心使用，因为SAS会删除by变量重复的记录，而不管该记录是不是重复的，这样就会丢失有效的数据。

·其他选项

datecopy
保留数据集创建或修改的日期，缺省时排序也会被认为是修改，上次的修改时间就会被覆盖，可是有些时候我们并不希望SAS这么做。

force 强制排序，不管输入数据集是否已经排序或有索引，都进行重新排序

内存与磁盘优化选项排序在各种语言中是一种基本的算法，当数据集很大时会占用大量的计算机资源，这些选项提供算法在这方面的优化。

by语句

缺省情况下，是按照变量进行升序排列(ascending)，降序则要显性的用descending指明。

特别的是，这两个关键字应该写在变量的前面，而其他语言可能相反，如SQL将排序关键字放在变量之后。

(2)运行机制

proc
sort会先检查输入数据集的排序信息，特别是sortedby=选项，如果输入数据集提示已经按照by变量进行过排序，或者sort过程检测到数据集中记录的顺序按照by变量本来就是有序的，则proc
sort就会偷懒，不进行排序，直接将输入数据集复制到输出数据集中；另外，如果输入数据集在by变量上已经创建索引，则也不进行排序，因为排序之后会破坏原来的索引。除此之外，proc
sort才会进行排序。

那么，如果用户要强制sort过程进行排序呢？那就需要用到force选项了。

(3)实例

对数据集按年龄大小进行排序，相同年龄的观测仍然按原来的次序。

proc sort data=age equals;http://www.cda.cn/view/18248.html

by age;

run;

SAS中的Order By - Proc Sort的更多相关文章

Hive中的order by、sort by、distribute by、cluster by解释及测试
结论: order by:全局排序,这也是4种排序手段中唯一一个能在终端输出中看出全局排序的方法,只有一个reduce,可能造成renduce任务时间过长,在严格模式下,要求必须具备limit子句. ...
2.12 Hivet中order by，sort by、distribute by和cluster by
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SortBy 一.order by 对全局数据的排序,仅仅只有一个red ...
SAS中的聚类分析方法总结
SAS中的聚类分析方法总结说起聚类分析,相信很多人并不陌生.这篇原创博客我想简单说一下我所理解的聚类分析,欢迎各位高手不吝赐教和拍砖. 按照正常的思路,我大概会说如下几个问题: 1. 什么是 ...
PROC SORT
PROC SORT DATA=输入数据集 <OUT=输出数据集><选项>; BY 关键变量; RUN; PROC SORT 语法如上,其中在尖括号中的可以不出现,也不会报错. ...
Hive中的Order by与关系型数据库中的order by语句的异同点
在Hive中,ORDER BY语句是对查询结果集进行整体的排序,最终将会产生一个reducer进行全局的排序,达到的最终结果是和传统的关系型数据库是一样的. 在数据量非常大的时候,全局排序的单个red ...
mysql中的order by
一.order by的原理 1.利用索引的有序性获取有序数据当查询语句的 order BY 条件和查询的执行计划中所利用的 Index 的索引键(或前面几个索引键)完全一致,且索引访问方式为 ran ...
hive的排序 order by和sort by
在算法中,各个排序算法的复杂度都比较高,正常情况下为O (nlogn) ,所以当数据量特别大的时候,对数组进行排序消耗都很大. 因为hive的计算引擎MapReduce是分布式系统, 利用分布式的特点 ...
在UPDATE中更新TOP条数据以及UPDATE更新中使用ORDER BY
正常查询语句中TOP的运用: SELECT TOP 1000 * FROM MP_MemberGrade 随意更新一张表中满足条件的前N条数据: UPDATE TOP (1) MP_Member ...
SAS中常见的数组函数
SAS中常见的数组函数有: dim dimk hbound hboundk lbound lboundk 数组函数计萁数组的维数.上下界,有利于写出可移植的程序,数组函数包括:dim(x) 求数组x第 ...

随机推荐

Show Me the Code
最近在练习写Python代码,拥有150多道程序员面试题的LeetCode注重算法的实现,锻炼思维,还能在线测试代码的正确性,而Python练习册涉及到了Python实际的应用,锻炼解决问题的能力,托 ...
canvas添加事件
https://blog.csdn.net/xundh/article/details/78722744
微信、qq网页二次分享
二次分享是指,在APP或者浏览器分享到微信或者qq,然后从微信或者qq再分享到别的平台.如果不处理,再次分享出去的图片或者标题就不会显示,对用户非常不友好. 一.微信二次分享官方接入文档:https ...
同一客户端多个git账号的配置
同一客户端多个git账号的配置同一客户端多个git账号的配置步骤一:用ssh-keygen命令生成一组新的id_rsa_new和id_rsa_new.pub. 1 ssh-keygen -t rs ...
indexDB的概念
IndexDB利用数据键(key)访问,通过索引功能搜索数据,适用于大量的结构化数据,如日历,通讯簿或者记事本. 1. 以key/value成对保存数据 IndexDB和WebStorage都是以数据 ...
gcc版本切换
查看安装的gcc版本 sudo update--alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-5 100 显示所有版本gcc路径 sudo ...
C语言获取当前时间
#include <stdio.h> #include <time.h> void main () { time_t rawtime; struct tm * timeinfo ...
Oracle 数据库恢复命令
前提是oracle服务能正常启动,但是客户端怎么都连接不上. 首先打开命令行,输入:sqlplus / as sysdba; 回车连上数据库后,屏幕会显示:已连接到空闲例程. 接下来在SQL> ...
java 发红包案例
公私钥，数字证书，https
1.密钥对,在非对称加密技术中,有两种密钥,分为私钥和公钥,私钥是密钥对所有者持有,不可公布,公钥是密钥对持有者公布给他人的. 2.公钥,公钥用来给数据加密,用公钥加密的数据只能使用私钥解密. 3.私 ...

SAS中的Order By - Proc Sort

SAS中的Order By - Proc Sort的更多相关文章

随机推荐

热门专题