pig中,limit可以取样少部分数据,但有很多问题,比如数据不能少于10条,否则返回全部. 今天又遇到另一个问题: group后的数据,limit无效:也就是group后的数据,不能用limit,估计是含group结构不行(没验证) 相比而言sample比较好,我试了一下是可以的,对group后的数据也能有作用 测试代码如下: origin_cleaned_data = LOAD '$cleanedLog' as 省略: STORE origin_cleaned_data INTO '/us…
lmt = limit data 10; 只获取指定条数的数据,不能保证每次得到的结果一致,先执行order再limit可以保证一致. 输入数据全部载入. 会触发reduce阶段 a = load 'a.txt'; b = group a all; c = foreach b generate COUNT(a) as sum; d = order a by $0; e = limit d c.sum/100; …
总结:妹纸不是那么会表述,如有不妥之处,请提出来 package com.sads; //杰伦的世界 //实现在0-100个数中,随机输出数每行10个数,也就是10行10列,这些数在0---到9之间 public class Dds { public static void main(String[] args) { int a[] = new int[100]; for (int i = 0; i < 100; i++) {// 这个括号里的10,很重要,因为要输出每行10个数,所以就要为10…