一、spark读取数据

前段时间一直在研究GeoMesa下的Spark JTS，Spark JTS支持用户自定义函数，然后有一份数据，读取文件：

package com.geomesa.spark.SparkCore

import org.apache.spark.sql.SparkSession

import org.apache.spark.sql.types.{ArrayType, DataTypes, StringType, StructField, StructType}

object test {

  def main(args: Array[String]): Unit = {

    import org.locationtech.geomesa.spark.jts._

    //spark

    val spark: SparkSession = {

      SparkSession.builder()

        .appName("test")

        .master("local[*]")

        .getOrCreate()

        //需注入spark.jts._包

        .withJTS

    }

    val dataFile = this.getClass.getClassLoader.getResource("gsmc.txt").getPath

    val df = spark.read

      .schema(schema)

      .json(dataFile)

    //.show(5, false)

    //.printSchema()

  }

}

二、自定义函数结构

然后打印出来的数据结构如下，通过spark sql的自定义函数构建这个结构的数据，主要构建features下的相关数据结构，之前耗时N久，各种不会构建以及构建错误，后，皇天不负有心人，搞就是了，搞出来了。

    root

   |-- crs: struct (nullable = true)

   |    |-- properties: struct (nullable = true)

   |    |    |-- name: string (nullable = true)

   |    |-- type: string (nullable = true)

   |-- features: array (nullable = true)

   |    |-- element: struct (containsNull = true)

   |    |    |-- geometry: struct (nullable = true)

   |    |    |    |-- coordinates: array (nullable = true)

   |    |    |    |    |-- element: array (containsNull = true)

   |    |    |    |    |    |-- element: array (containsNull = true)

   |    |    |    |    |    |    |-- element: double (containsNull = true)

   |    |    |    |-- type: string (nullable = true)

   |    |    |-- geometry_name: string (nullable = true)

   |    |    |-- id: string (nullable = true)

自定义格式如下：

    val schema = StructType(Array(

      StructField("crs", StringType),

      StructField("features", ArrayType(

        StructType(Array(StructField("geometry",

          StructType(Array(StructField("coordinates",

            ArrayType(DataTypes.createArrayType(ArrayType((DataTypes.DoubleType)))))

          )))))))

    ))

经过printSchema()方法测试，结构如上面的features结构一模一样，nice。

三、附上长长的各种pom

<properties>

        <geospark.version>1.2.0</geospark.version>

        <geotools.version>14.1</geotools.version>

        <spark.version>2.3.1</spark.version>

        <encoding>UTF-8</encoding>

        <scala.binary.version>2.11</scala.binary.version>

    </properties>

    <dependencies>

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-client</artifactId>

            <version>2.7.0</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-sql_2.11</artifactId>

            <version>2.2.0</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.11</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-sql_2.11</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.scala-lang</groupId>

            <artifactId>scala-library</artifactId>

            <version>2.11.0</version>

        </dependency>

        <dependency>

            <groupId>org.datasyslab</groupId>

            <artifactId>geospark</artifactId>

            <version>${geospark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.geotools</groupId>

            <artifactId>gt-geometry</artifactId>

            <version>20.0</version>

        </dependency>

        <dependency>

            <groupId>com.vividsolutions</groupId>

            <artifactId>jts</artifactId>

            <version>1.13</version>

        </dependency>

        <dependency>

            <groupId>org.json</groupId>

            <artifactId>json</artifactId>

            <version>20180813</version>

        </dependency>

        <dependency>

            <groupId>com.esri.geometry</groupId>

            <artifactId>esri-geometry-api</artifactId>

            <version>2.2.2</version>

        </dependency>

        <dependency>

            <groupId>org.geotools</groupId>

            <artifactId>gt-geojson</artifactId>

            <version>${geotools.version}</version>

        </dependency>

        <dependency>

            <groupId>org.geotools</groupId>

            <artifactId>gt-api</artifactId>

            <version>${geotools.version}</version>

        </dependency>

        <dependency>

            <groupId>org.geotools</groupId>

            <artifactId>gt-referencing</artifactId>

            <version>${geotools.version}</version>

        </dependency>

        <dependency>

            <groupId>org.locationtech.geomesa</groupId>

            <artifactId>geomesa-spark-jts_2.11</artifactId>

            <version>2.1.0</version>

        </dependency>

        <dependency>

            <groupId>org.geotools</groupId>

            <artifactId>gt-epsg-hsql</artifactId>

            <version>${geotools.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_${scala.binary.version}</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-sql_${scala.binary.version}</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-catalyst_${scala.binary.version}</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.locationtech.jts.io</groupId>

            <artifactId>jts-io-common</artifactId>

            <version>1.16.0</version>

        </dependency>

        <dependency>

            <groupId>org.locationtech.jts</groupId>

            <artifactId>jts-core</artifactId>

            <version>1.16.0</version>

        </dependency>

        <dependency>

            <groupId>org.locationtech.spatial4j</groupId>

            <artifactId>spatial4j</artifactId>

            <version>0.6</version>

        </dependency>

        <dependency>

            <groupId>com.alibaba</groupId>

            <artifactId>fastjson</artifactId>

            <version>1.2.47</version>

        </dependency>

        <!--redis-->

        <dependency>

            <groupId>redis.clients</groupId>

            <artifactId>jedis</artifactId>

            <version>2.9.0</version>

        </dependency>

    </dependencies>

Spark SQL 自定义函数类型的更多相关文章

SQL自定义函数split分隔字符串
SQL自定义函数split分隔字符串一.F_Split:分割字符串拆分为数据表 Create FUNCTION [dbo].[F_Split] ( @SplitString nvarchar(max ...
MS SQL自定义函数IsPositiveInteger MS SQL自定义函数IsNumeric 水晶报表使用IEnumerable<T>数据源
MS SQL自定义函数IsPositiveInteger 判断字符串是否为正整数,0开始的的数字不算. SET ANSI_NULLS ON GO SET QUOTED_IDENTIFIER ON ...
sql自定义函数及C#中调用
1.在C#中调用sql自定义函数 1.1 标量值函数 sql语句调用 select dbo.GetClassIDWithName(1) string strSql = string.Format(& ...
sql 自定义函数--固定格式字符转时间类型
遇到一个德国的客户,他们的时间格式是JJJJ-TT-DD HH:MM:SS,程序按照这个格式将时间插入数据库,但是在sql自带的转换函数convert.cast过程中报错,网上搜了下都说用conver ...
详解Spark sql用户自定义函数:UDF与UDAF
UDAF = USER DEFINED AGGREGATION FUNCTION Spark sql提供了丰富的内置函数供猿友们使用,辣为何还要用户自定义函数呢?实际的业务场景可能很复杂,内置函数ho ...
Spark学习之路（十一）—— Spark SQL 聚合函数 Aggregations
一.简单聚合 1.1 数据准备 // 需要导入spark sql内置的函数包 import org.apache.spark.sql.functions._ val spark = SparkSess ...
Spark 系列（十一）—— Spark SQL 聚合函数 Aggregations
一.简单聚合 1.1 数据准备 // 需要导入 spark sql 内置的函数包 import org.apache.spark.sql.functions._ val spark = SparkSe ...
Spark SQL 用户自定义函数UDF、用户自定义聚合函数UDAF 教程（Java踩坑教学版）
在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF( ...
PL/SQL自定义函数
从SQL表达式中调用函数的限制为了从SQL表达式中调用函数,一个用户定义函数必须: 是存储函数只接受IN函数只接收有受的SQL数据类型,而不接受PL/SQL数据类型返回数据类型为有效的SQL数 ...

随机推荐

各开源协议BSD、Apache Licence 2.0、GPL
以下是上述协议的简单介绍:BSD开源协议BSD开源协议是一个给于使用者很大自由的协议.基本上使用者可以"为所欲为",可以自由的使用,修改源代码,也可以将修改后的代码作为开源或者专有 ...
DTCC 2020 | 阿里云李飞飞：云原生分布式数据库与数据仓库系统点亮数据上云之路
简介: 数据库将面临怎样的变革?云原生数据库与数据仓库有哪些独特优势?在日前的 DTCC 2020大会上,阿里巴巴集团副总裁.阿里云数据库产品事业部总裁.ACM杰出科学家李飞飞就<云原生分布式数 ...
使用OpenCV进行简单的人像分割与合成
图像合成实现思路通过背景建模的方法,对源图像中的动态人物前景进行分割,再将目标图像作为背景,进行合成操作,获得一个可用的合成影像. 实现步骤如下. 使用BackgroundSubtractorMO ...
linux网络工具nc命令
nc是netcat的简写,有着网络界的瑞士军刀美誉.因为它短小精悍.功能实用,被设计为一个简单.可靠的网络工具. nc命令的作用 (1)实现任意TCP/UDP端口的侦听,nc可以作为server以TC ...
【Linux】dlopen failed: /lib/lsiRAID.so: cannot open shared object file: No such file or directory
遇到这个问题,首先第一反应,是看其他的服务器中是否有这个库文件,如果有的话直接cp过来一份就行但是检查发现,其他的系统中也不存在lsiRAID.so这个库文件,很神奇.. 但是看日志持续报错,查看s ...
电子邮箱、邮件地址、网站地址正则表达式！几个有用的RE、regex、regexp！
几个常用的正则表达式! r"\w[-\w\.]*@\w[-\w]*(\.\w[-\w]*)+" 这个是电子邮件地址的. r"<TAG\b[^>]*<(. ...
CS远控
Cobaltstrike 一.基础使用 ./teamserver 192.168.43.224 123456 启动服务器端在windows下的链接双击bat文件即可在linux下 ./start ...
php 换行符
PHP 中换行可以用 PHP_EOL 来替代,以提高代码的源代码级可移植性: unix系列用 \n windows系列用 \r\n mac用 \r 总结:在一些大文本域中换行的文本可以用这个来进行切割 ...
05--Docker对DockerFile解析
一.是什么: 1.1 DockerFile是用来构建Docker镜像的构建文件,是由一系列命令和参数构成的脚本 1.2 构建步骤: 1.2.1 编写Dockerfile文件 1.2.2 docker ...
集成 12 种协议、可于 USBC 端口的快充协议芯片IP2188
1. 特性支持 12 种 USB 端口快充协议支持 USB TypeC PD2.0/PD3.0/PPS DFP 协议支持多种充电协议(QC3.0/QC2.0,FCP,SCP, AFC,MT ...