spark的广播变量

直接上代码:
包含了,map,filter,persist,mapPartitions等函数

 String master = "spark://192.168.2.279:7077";

//         jsc = getContext("local[2]");

        jsc = getContext(master);

        sqlContext = new SQLContext(jsc);

        connectionProperties = new Properties();

        connectionProperties.put("user", user);

        connectionProperties.put("password", password);

        connectionProperties.put("driver", "com.mysql.jdbc.Driver");

//        emrdataIndedx(filePath, jsc, sqlContext);//加载emrdataindex数据到mysql

        JavaRDD<String> javaRDD = jsc.textFile(filePath);

        String[] fields = {"pk_dcpv", "code_pvtype", "name_pvtype", "code_ord", "empi", "code_sex"

                , "name_sex", "birthday", "age", "code_dept", "name_dept", "bed", "pk_dcordrisreq"

                , "code_req", "code_rep", "code_rep_type", "name_rep_type", "code_state", "name_state"

                , "code_eu_type", "name_eu_type", "code_eu_item", "name_eu_item", "code_part"

                , "name_part", "create_time", "code_pres", "parent_code"};

        String[] old_type = {"D", "GYN", "X ", "MR ", "L05", "L04",

                "L12", "B ", "OTHC", "DOS", "ECG", "CT ", "UIS", "L02",

                "RIS", "SY ", "CB ", "L01", "ENT", "L03", "EYE", "NSC",

                "L07", "EMG", "NEU", "PTH", "DC", "INF", "GC", "L08",

                "L09", "BD", "L26", "ECT", "GM", "GP", "L10", "EDO",

                "L11", "DER", "EEG", "URO", "PFT", "L25", "RF", "OTH",

                "PIS", "PMR", "PSY", "MPL", "BM", "Z", "EIS", "BED", "BLD",

                "L27", "FOD", "R", "GYP", "CTD", "BDT", "L99", "EUS", "HNS",

                "L91", "SED", "L28", "F", "IED", "FOW", "L31", "OO", "P01", "L13"};

        //广播变量

        final Broadcast<String[]> broadcast = jsc.broadcast(old_type);

        StructType schema = createStructType(fields);

        JavaRDD<Row> mapPartitions1 = javaRDD.mapPartitions(new FlatMapFunction<Iterator<String>, Row>() {

            private static final long serialVersionUID = 1L;

            ObjectMapper mapper = new ObjectMapper();

            @SuppressWarnings("unchecked")

            public Iterator<Row> call(Iterator<String> iterator)

                    throws Exception {

                ArrayList<Row> arrayList = new ArrayList<Row>();

                // TODO Auto-generated method stub

                while (iterator.hasNext()) {

                    try {

                        String next = iterator.next();

                        map_t = mapper.readValue(next, Map.class);

                        for (Entry<String, Object> entry : map_t.entrySet()) {

                            map_s.put(entry.getKey(), String.valueOf(entry.getValue()));

                        }

                    } catch (Exception e) {

                        return null;

                    }

                    Row createOrdPart3Row = createOrdPart3Row(map_s);

                    arrayList.add(createOrdPart3Row);

                }

                return arrayList.iterator();

            }

        });

        JavaRDD<Row> mapPartitions2 = mapPartitions1.filter(new Function<Row, Boolean>() {

            private static final long serialVersionUID = 1L;

            public Boolean call(Row row) throws Exception {

                // TODO Auto-generated method stub

                String pk_dcpv1 = row.getString(0);

                String code_pvtype1 = row.getString(1);

                String code_rep_type1 = row.getString(15);

                return pk_dcpv1.split("_").length == 2

                        && (!"".equals(code_pvtype1) || null != code_pvtype1 || !"P".equals(code_pvtype1))

                        && Arrays.asList(broadcast.value()).contains(code_rep_type1);

            }

        });

        //broadcast不用就销毁

        broadcast.destroy();

        JavaRDD<Row> mapPartitions = mapPartitions2.repartition(100);

        JavaRDD<Row> persist = mapPartitions.persist(StorageLevel.MEMORY_AND_DISK_SER());

        JavaRDD<Row> filter1 = persist.filter(new Function<Row, Boolean>() {

            private static final long serialVersionUID = 1L;

            public Boolean call(Row row) throws Exception {

                // TODO Auto-generated method stub

                return row.getString(0).startsWith("1");

            }

        });

spark的广播变量的更多相关文章

【Spark篇】---Spark中广播变量和累加器
一.前述 Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量. 累机器相当于统筹大变量,常用于计数,统计. 二.具体原理 ...
Spark共享变量(广播变量、累加器)
转载自:https://blog.csdn.net/Android_xue/article/details/79780463 Spark两种共享变量:广播变量(broadcast variable)与 ...
Spark学习之路（四）Spark的广播变量和累加器
一.概述在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本.这些变量会被复制到每台机器上 ...
Spark的广播变量模块
有人问我,如果让我设计广播变量该怎么设计,我想了想说,为啥不用zookeeper呢? 对啊,为啥不用zookeeper,也许spark的最初设计哲学就是尽量不使用别的组件,他有自己分布式内存文件系统, ...
Spark学习之路（四）Spark的广播变量和累加器[转]
概述在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本.这些变量会被复制到每台机器上,并 ...
Spark(八)【广播变量和累加器】
目录一. 广播变量使用二. 累加器使用使用场景自定义累加器在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的 ...
Spark大师之路：广播变量（Broadcast）源代码分析
概述近期工作上忙死了--广播变量这一块事实上早就看过了,一直没有贴出来. 本文基于Spark 1.0源代码分析,主要探讨广播变量的初始化.创建.读取以及清除. 类关系 BroadcastManage ...
Spark RDD持久化、广播变量和累加器
Spark RDD持久化 RDD持久化工作原理 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中.当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内 ...
【Spark调优】Broadcast广播变量
[业务场景] 在Spark的统计开发过程中,肯定会遇到类似小维表join大业务表的场景,或者需要在算子函数中使用外部变量的场景(尤其是大变量,比如100M以上的大集合),那么此时应该使用Spark的广 ...

随机推荐

Android持久化存储——（包含操作SQLite数据库）
<第一行代码>读书手札你可能会遇到的问题:解决File Explorer 中无显示问题 Android中,持久化存储,常见的一共有三种方法实现 (一.)利用文件存储文件存储是Andro ...
Python21之内嵌函数和闭包
一.内嵌函数内嵌函数指的是在一个函数体内部定义的函数,可以称它为函数的函数,也就是子函数,外部的函数称之为母函数,就类似局部变量和全局变量子函数体内定义的变量只在其函数内部有效,但其内部可以调用母 ...
元组的简单介绍——参考Python编程从入门到实践
元组用于存储一系列不可修改的元素 1. 元组的定义 dimensions = (200, 50) # 定义一个元组,即将元素用圆括号括起来 print(dimensions[0]) # 打印元组中的 ...
火狐浏览器访问所有HTTPS网站显示连接不安全解决办法
当 Firefox 连接到一个安全的网站时(网址最开始为“https://”),它必须确认该网站出具的证书有效且使用足够高的加密强度.如果证书无法通过验证,或加密强度过低,Firefox 会中止连接到 ...
wepy框架怎么在template模板中使用函数
呵呵.介绍说是类似vue,用起来真累人,就想在模板中使用个函数都要查N久的文档才知道. 具体要怎么操作呢? 要先创建个wxs脚本文件,在里面定义函数或其它的,然后在页面或组件中引入这文件,就可以在模板 ...
简单理解undefine和null的区别
直接进入主题: 相同点:都表示“值的空缺” 不同点: null: 定义:一个空对象指针. 使用typeOf得到Object,相当于是一个特殊值 undefine: 定义:声明变量却未对其加以初始化的变 ...
python简单页面爬虫入门 BeautifulSoup实现
本文可快速搭建爬虫环境,并实现简单页面解析 1.安装 python 下载地址:https://www.python.org/downloads/ 选择对应版本,常用版本有2.7.3.4 安装后,将安装 ...
STM8 uart1
举例 int main() { UART1_DeInit(); //波特率9600,数据位8,停止位1,校验位无,非同步模式,发送接收使能 UART1_Init(9600, UART1_WORDLEN ...
docker 推送镜像到阿里云
1. 登录阿里云Docker Registry $ sudo docker login --username=www.18860363800@hotmail.com registry.cn-beiji ...
k8s中的网络（较详细汇总）
目录一.网络前提条件-网络模型二.需要解决的网络问题 1.容器和容器之间的网络 2.pod与pod之间的网络同一台node节点上pod和pod通信不同node节点上pod和pod通信 3.po ...

spark的广播变量

spark的广播变量的更多相关文章

随机推荐

热门专题