spark-sql缩减版样例：获取每日top3搜索词和各自的次数，包括总次数

//获取出每天前3的搜索词

        ArrayList<String> log = new ArrayList<String>();

        log.add("2015-10-01,leo,a1,beijing,android");

        log.add("2015-10-01,leo,a1,beijing,android");

        log.add("2015-10-01,tom,a1,beijing,android");

        log.add("2015-10-01,jack,a1,beijing,android");

        log.add("2015-10-01,marry,a1,beijing,android");

        log.add("2015-10-01,tom,bbf,beijing,android");

        log.add("2015-10-01,jack,bbf,beijing,iphone");

        log.add("2015-10-01,jack,bbf,beijing,android");

        log.add("2015-10-01,leo,ttyu,beijing,android");

        log.add("2015-10-01,leo,ttyu,beijing,android");

        log.add("2015-10-01,wede,a1,beijing,android");

        log.add("2015-10-01,wede,bbf,beijing,iphone");

        log.add("2015-10-02,leo,a2,beijing,android");

        log.add("2015-10-02,tom,a2,beijing,android");

        log.add("2015-10-02,tom,a2,beijing,android");

        log.add("2015-10-02,jack,a1,beijing,android");

        log.add("2015-10-02,marry,a1,beijing,android");

        log.add("2015-10-02,leo,bbf,beijing,iphone");

        log.add("2015-10-02,jack,bbf,beijing,android");

        log.add("2015-10-02,wede,bbf,beijing,android");

        log.add("2015-10-02,leo,ttyu,beijing,android");

        log.add("2015-10-02,leo,ttyu,beijing,android");

        log.add("2015-10-02,jack,a1,beijing,android");

        log.add("2015-10-02,wede,tour,beijing,android");

        SparkConf conf = new SparkConf()

//                .setMaster("local")

                .setAppName("Top3UV");

        JavaSparkContext sc = new JavaSparkContext(conf);

        HiveContext sqlContext = new HiveContext(sc.sc());

        JavaRDD<String> rdd_list = sc.parallelize(log, 2);

        //0条件使用broadcast（每个worker节点共享一个变量）

        final org.apache.spark.broadcast.Broadcast<String> bc = sc.broadcast("iphone");

        //1条件过滤

        JavaRDD<String> rdd_filter_list = rdd_list.filter(new Function<String, Boolean>() {

            @Override

            public Boolean call(String v1) throws Exception {

                String ary[] = v1.split(",");

                String platform = ary[4];

                if (platform.contains(bc.value()))

                    return false;

                return true;

            }

        });

        //2将每行数据构建成tuple2

        JavaPairRDD<String, String> rdd_tuple2_list = rdd_filter_list.mapToPair(new PairFunction<String, String, String>() {

            @Override

            public Tuple2<String, String> call(String s) throws Exception {

                String ary[] = s.split(",");

                String time = ary[0];

                String word = ary[2];

                String userName = ary[1];

                return new Tuple2<String, String>(time + "_" + word, userName);

            }

        });

        //3按照tuple._1进行combiner

        JavaPairRDD<String, Iterable<String>> rdd_byKey = rdd_tuple2_list.groupByKey();

        //4按照tuple._1进行用户数量去重后的统计

        JavaPairRDD<String, Integer> rdd_byKey_uv = rdd_byKey.mapToPair(new PairFunction<Tuple2<String, Iterable<String>>, String, Integer>() {//tuple._1仍然为时间_搜索词，而tuple._2变为用户去重后的数量

            @Override

            public Tuple2<String, Integer> call(Tuple2<String, Iterable<String>> stringIterableTuple2) throws Exception {

                String tuple_1 = stringIterableTuple2._1();

                Iterable<String> userNames = stringIterableTuple2._2();

                Set<String> userNameSet = new HashSet<String>();

                for (String item : userNames) {

                    userNameSet.add(item);//用户名称

                }

                return new Tuple2<String, Integer>(tuple_1, userNameSet.size());

            }

        });

        //5构建rdd<Row>用来映射DataFrame

        JavaRDD<Row> rdd_byKey_row_uv = rdd_byKey_uv.map(new Function<Tuple2<String, Integer>, Row>() {

            @Override

            public Row call(Tuple2<String, Integer> stringIntegerTuple2) throws Exception {

                String ary[] = stringIntegerTuple2._1().split("_");

                return RowFactory.create(ary[0], ary[1], stringIntegerTuple2._2());

            }

        });

        List<StructField> list = new ArrayList<StructField>();

        list.add(DataTypes.createStructField("date", DataTypes.StringType, true));

        list.add(DataTypes.createStructField("word", DataTypes.StringType, true));

        list.add(DataTypes.createStructField("uv_num", DataTypes.IntegerType, true));

        StructType tmpType = DataTypes.createStructType(list);

        DataFrame df_tuple = sqlContext.createDataFrame(rdd_byKey_row_uv, tmpType);

        df_tuple.registerTempTable("tuple_keyDS_valUN");

        //6使用DataFrame结合开窗函数row_number分组后过滤出访问量前3的搜索词

        StringBuilder _sb = new StringBuilder();

        _sb.append("select date,word,uv_num from ( ");

        _sb.append(" select date,word,uv_num, row_number() OVER (PARTITION BY date ORDER BY uv_num DESC ) as rank from tuple_keyDS_valUN ");

        _sb.append(" ) tmp_group_top3 where rank<=3");

        DataFrame df_tuple_groupTop3 = sqlContext.sql(_sb.toString()).cache();

        //df_tuple_groupTop3.show();//***************在最下面打印

        //=====到这里已经获取到每天前3的“搜索词“和“uv数“，并倒叙排序

        //在获取每天排名前三“搜索词”的总uv数

        //7将结果从DataFrame转换回rdd，并拼接成tuple2（日期,总访问量_访问词）

        JavaPairRDD<String, String> rdd_uvKey = df_tuple_groupTop3.javaRDD().mapToPair(new PairFunction<Row, String, String>() {

            @Override

            public Tuple2<String, String> call(Row row) throws Exception {

                String date = row.getString(0);

                String word = row.getString(1);

                Integer uv_mun = row.getInt(2);

                return new Tuple2<String, String>(date, uv_mun + "_" + word);

            }

        });

        //8mapToPair后继续按照key合并

        JavaPairRDD<String, Iterable<String>> rdd_dateKey_group = rdd_uvKey.groupByKey();

        JavaPairRDD<Integer, String> rdd_uvKey_combiner = rdd_dateKey_group.mapToPair(new PairFunction<Tuple2<String, Iterable<String>>, Integer, String>() {

            @Override

            public Tuple2<Integer, String> call(Tuple2<String, Iterable<String>> stringIterableTuple2) throws Exception {

                Integer uv_sum = 0;

                String data_word = "";

                Iterable<String> uv_word = stringIterableTuple2._2();

                Iterator<String> uv_word_it = uv_word.iterator();

                for (; uv_word_it.hasNext(); ) {

                    String uv_word_str = uv_word_it.next();

                    String ary[] = uv_word_str.split("_");

                    Integer uv = Integer.valueOf(ary[0]);

                    uv_sum += uv;//累加总uv数

                    String word = ary[1];

                    data_word += stringIterableTuple2._1() + "_" + word + "|";

                }

                return new Tuple2<Integer, String>(uv_sum, data_word);

            }

        });

        JavaPairRDD<Integer, String> rdd_uvKey_sort = rdd_uvKey_combiner.sortByKey(false);

        List<Tuple2<Integer, String>> ret = rdd_uvKey_sort.collect();

        for (Tuple2<Integer, String> item : ret) {

            System.out.println(item._1() + "<--->" + item._2());

        }

        df_tuple_groupTop3.show();

spark-sql缩减版样例：获取每日top3搜索词和各自的次数，包括总次数的更多相关文章

HttpClient4.3.3 使用样例—获取静态资源
HttpClient4.3.3 使用样例—获取静态资源学习了:http://shihlei.iteye.com/blog/2067688
spark单机部署及样例运行
spark单机运行部署环境预装需要预先下载jdk和spark.机器使用centos6.6(推荐).然后依次运行 [root@spark-master root]# cd /root #安装必要的软 ...
python获取每日涨跌停股票统计，封闭时间和打开次数
接口:limit_list 描述:获取每日涨跌停股票统计,包括封闭时间和打开次数等数据,帮助用户快速定位近期强(弱)势股,以及研究超短线策略. 限量:单次最大1000,总量不限制积分:用户积2000 ...
SQL集合操作符样例（UNION,INTERSECT,EXCEPT）
由于MYSQL目前只实现了UNION, 所以后面两个就没得玩罗.... SELECT emp_id, assigned_branch_id -> FROM employee -> WHER ...
php 获取淘宝搜索词内容
$s = file_get_contents('http://suggest.taobao.com/sug?extras=1&code=utf-8&callback=g_ks_sugg ...
SQL SEVER 2008中的演示样例数据库
SQL SEVER 2008数据库是什么我就不说了,我在这里分享一下怎样学习SQL SEVER 2008数据库,假设是对数据库或是SQL SEVER 数据库全然陌生或是不熟悉的人来说,建议看看一些视频 ...
48、Spark SQL之与Spark Core整合之每日top3热点搜索词统计案例实战
一.概述 1.需求分析数据格式: 日期用户搜索词城市平台版本需求: 1.筛选出符合查询条件(城市.平台.版本)的数据 2.统计出每天搜索uv排名前3的搜索词 3.按照每天的top3搜索词 ...
spark mllib lda 中文分词、主题聚合基本样例
github https://github.com/cclient/spark-lda-example spark mllib lda example 官方示例较为精简在官方lda示例的基础上,给合 ...
Spark SQL 之 Data Sources
#Spark SQL 之 Data Sources 转载请注明出处:http://www.cnblogs.com/BYRans/ 数据源(Data Source) Spark SQL的DataFram ...

随机推荐

CEC和ARC介绍
众所周知,HDMI作为一个数字化视频音频的接收标准,是可以同时传输视频和音频的,当然随着HDMI版本的提升,它的功能也一直在增强.事实上当HDMI升级到1.3时,人们就发现了HDMI多了一个CEC功 ...
Python Libhunt
有一个网站,Python Libhunt: https://python.libhunt.com 这个网站类似于Github的Awesome xxx系列,不过它是随时更新的,排序方式,分类也更加友好. ...
Windows7下PHP5.6.19+Apache2.4.18+MySql5.7环境配置
此安装参考了网上各方资料,最终整理的内容为本次安装涉及的部分. 一.准备安装材料: 1.从http://windows.php.net/download/ 下载5.6.19 线程安全版(使用apach ...
SQL中笛卡尔积－cross join的用法
在数学中,笛卡尔乘积是指两个集合X和Y的笛卡尓积(Cartesian product),又称直积,表示为X × Y,第一个对象是X的成员而第二个对象是Y的所有可能有序对的其中一个成员假设集合A={a ...
史上最明白的 NULL、0、nullptr 区别分析（老师讲N篇都没讲明白的东东），今天终于明白了，如果和我一样以前不明白的可以好好的看看...
C的NULL 在C语言中,我们使用NULL表示空指针,也就是我们可以写如下代码: int *i = NULL; foo_t *f = NULL; 实际上在C语言中,NULL通常被定义为如下: #def ...
docker简单介绍----镜像和容器管理
docker可以分为三部分:docker镜像 docker仓库 docker容器 docker镜像:一个image可以包含一个镜像,也可以理解为一个系统模板,里面安装了相关应用,也可以是纯净版的 ...
C#中用ILMerge合并DLL和exe文件成一个exe文件或者DLL
ILMerge是一个将多个.NET程序集合并到一个程序集中的实用程序.它既可以作为开源使用,也可以作为NuGet包使用. 如果您在使用它时遇到任何问题,请与我们联系.(mbarnett _at_ ...
进入js
JavaScript概述 ECMAScript和JavaScript的关系 1996年11月,JavaScript的创造者--Netscape公司,决定将JavaScript提交给国际标准化组织ECM ...
vue项目关闭eslint检查
前言 vue项目在用旧版本的vue-cli创建的时候,会询问是否添加eslint的检查, 后来的版本在创建的时候是直接添加了eslint检查. 有时候我们开发习惯不是那么严格的时候, 会不在意这些缩进 ...
Centos7/RHEL7 开启kdump
Kdump是一种基于kexec的Linux内核崩溃捕获机制,简单来说系统启动时会预留一块内存,当系统崩溃调用命令kexec(kdump kernel)在预留的内存中启动kdump内核, 该内核会将此时 ...

spark-sql缩减版样例：获取每日top3搜索词和各自的次数，包括总次数

spark-sql缩减版样例：获取每日top3搜索词和各自的次数，包括总次数的更多相关文章

随机推荐

热门专题