在spark udf中读取hdfs上的文件

某些场景下，我们在写UDF实现业务逻辑时候，可能需要去读取某个文件。

我们可以将此文件上传个hdfs某个路径下，然后通过hdfs api读取该文件，但是需要注意：

　　UDF中读取文件部分最好放在静态代码块中（只会在类加载时候读取一次）或者放在构造方法中（在实例化的时候执行一次），尤其在处理的数据量比较大的时候，否则会反反复复的读取，造成不必要的开销，甚至任务失败，示例代码如下：

package cn.com.dtmobile.udf;

import java.util.HashMap;

import org.apache.spark.sql.api.java.UDF2;

import cn.com.dtmobile.util.HdfsUtil;

public class CalculateRsrp implements UDF2<Double, String, Double> {

    private static final long serialVersionUID = 1L;

    private static HashMap<String,Double> paramteres = null;
    static {
        paramteres = HdfsUtil.readHdfsFile("your file location");
    }

    @Override
    public Double call(Double t1, String t2) throws Exception {

        // 处理逻辑

        return null;
    }

}

在spark udf中读取hdfs上的文件的更多相关文章

spark读取hdfs上的文件和写入数据到hdfs上面
def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.set("spark.master" ...
pig 自定义udf中读取hdfs 文件
最近几天,在研究怎么样把日志中的IP地址转化成具体省份城市. 希望写一个pig udf IP数据库采用的纯真IP数据库文件qqwry.dat,可以从http://www.cz88.net/下载. 这里 ...
eclipse通过maven进行打包并且对hdfs上的文件进行wordcount
在eclipse中配置自己的maven仓库 1.安装maven(用于管理仓库,jar包的管理) -1.解压maven安装包 -2.把maven添加到环境变量/etc/profile -3.添加mave ...
[Spark][Python]对HDFS 上的文件，采用绝对路径，来读取获得 RDD
对HDFS 上的文件,采用绝对路径,来读取获得 RDD: In [102]: mydata=sc.textFile("file:/home/training/test.txt")1 ...
【Spark】Spark-shell案例——standAlone模式下读取HDFS上存放的文件
目录可以先用local模式读取一下步骤一.先将做测试的数据上传到HDFS 二.开发scala代码 standAlone模式查看HDFS上的文件步骤一.退出local模式,重新进入Spark- ...
python读取hdfs上的parquet文件方式
在使用python做大数据和机器学习处理过程中,首先需要读取hdfs数据,对于常用格式数据一般比较容易读取,parquet略微特殊.从hdfs上使用python获取parquet格式数据的方法(当然也 ...
HDFS 上传文件的不平衡，Balancer问题是过慢
至HDFS上传文件.假定从datanode开始上传文件,上传的数据将导致目前的当务之急是全datanode圆盘.这是一个分布式程序的执行是非常不利. 解决方案: 1.从其他非datanode节点上传 ...
【转载】HDFS 上传文件不均衡和Balancer太慢的问题
向HDFS上传文件,如果是从某个datanode开始上传文件,会导致上传的数据优先写满当前datanode的磁盘,这对于运行分布式程序是非常不利的. 解决的办法: 1.从其他非datanode节点上传 ...
Eclipse 上传删除下载分析 hdfs 上的文件
本篇讲解如何通过Eclipse 编写代码去操作分析hdfs 上的文件. 1.在eclipse 下新建Map/Reduce Project项目.如图: 项目建好后,会默认加载一系列相应的jar包. 下 ...

随机推荐

《精通iOS开发》书籍目录
1.欢迎来到iOS和Swift世界 2.创建一个新项目 3.实现基本交互 4.更丰富的用户界面 5.自动旋转和自动调整大小 6.多视图应用 7.分页栏与选取器 8.表视图简介 9.导航控制器和表视图 ...
centos安装出现dracut-initqueue timeout错误
dracut:/# cd /dev dracut:/# ls 这样子你就会看到所有的设备信息. 找到sda4, 不一定是sda4,有可能是其他的,实在不确定就拔了优盘看一下哪个消失了 dracut: ...
formatTime() 时间戳，返回数据是计算距离现在的时间
const formatTime=function(tiem) {//时间转换 const timestamp = Date.now(); return function (tiem) { ...
IOS 常用功能代码
1. 关闭/隐藏键盘 resignFirstResponder 响应view的方法 -(IBAction)fname:(id)sender{ [sender resignFirstResponder] ...
实战mysql存储程序与定时器
home198979 实战mysql存储程序与定时器博客分类: mysql 存储过程定时器eventprocedure实战需求:一个庞大的日志表,现每天做定时统计一天的总数,放另一个表中,方便查 ...
mysql 索引优化法则
建表语句 CREATE TABLE staffs( id INT PRIMARY KEY AUTO_INCREMENT, NAME VARCHAR (24) NOT NULL DEFAULT '' C ...
String和Date 互相转换
1.String ->Date String StrDate = "2012-12-12"; SimpleDateFormat sdf=new SimpleDateForma ...
Eclipse启动选择启动空间
window -->preferences-->General-->Startup and Shutdown -->Workspaces-->勾选Prompt for w ...
NO25 三剑客之SED行天下
功能说明 Sed是Stream Editor(流编辑器)缩写,是操作.过滤和转换文本内容的强大工具.常用功能有增删改查,过滤,取行. [root@oldboy ~]# sed --version #→ ...
QEMU 运行uboot，动态加载内核与文件系统
背景上一讲我们完成了编译 QEMU 以及简单地做了仿真.这一讲在启动uboot 的基础上进行,以加强对于运行地址,加载地址等理解. 有关资料: uboot 与代码重定位有这样的约定,ubo ...

在spark udf中读取hdfs上的文件

在spark udf中读取hdfs上的文件的更多相关文章

随机推荐

热门专题