sedona(Geospark)读取csv

package com.grady.sedona

import org.apache.sedona.sql.utils.SedonaSQLRegistrator

import org.apache.sedona.viz.core.Serde.SedonaVizKryoRegistrator

import org.apache.spark.serializer.KryoSerializer

import org.apache.spark.sql.SparkSession

object SedonaReadCsv {

  // hdfs 文件位置

  val csvPointInputLocation = "/tmp/jiang/" + "testpoint.csv"

  def main(args: Array[String]): Unit = {

    val ss:SparkSession = SparkSession.builder()

      .config("spark.serializer",classOf[KryoSerializer].getName)

      .config("spark.kryo.registrator", classOf[SedonaVizKryoRegistrator].getName)

      .appName("SedonaAnalysisScv").getOrCreate()

    SedonaSQLRegistrator.registerAll(ss)

    readCsv(ss)

    ss.stop()

  }

  def readCsv(ss: SparkSession): Unit = {

    val pointCsvDF = ss.read

      .format("csv")

      .option("delimiter",",")

      .option("header","false")

      .load(csvPointInputLocation)

    pointCsvDF.createOrReplaceTempView("test_point_csv")

    pointCsvDF.show(10)

    val pointDF = ss.sql("select ST_Point(cast(test_point_csv._c0 as Decimal(24,20)),cast(test_point_csv._c1 as Decimal(24,20))) as pointshape from test_point_csv")

    pointCsvDF.createOrReplaceTempView("test_point")

    pointDF.show()

  }

}

pom.xml

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0"

         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

    <parent>

        <artifactId>spark-practise</artifactId>

        <groupId>org.example</groupId>

        <version>1.0-SNAPSHOT</version>

    </parent>

    <modelVersion>4.0.0</modelVersion>

    <artifactId>sedona</artifactId>

    <properties>

        <maven.compiler.source>8</maven.compiler.source>

        <maven.compiler.target>8</maven.compiler.target>

    </properties>

    <dependencies>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_${scala.binary.version}</artifactId>

            <version>${spark.version}</version>

            <scope>provided</scope>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-sql_${scala.binary.version}</artifactId>

            <version>${spark.version}</version>

            <scope>provided</scope>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-yarn_${scala.binary.version}</artifactId>

            <version>${spark.version}</version>

            <scope>provided</scope>

        </dependency>

        <!-- sedona -->

        <dependency>

            <groupId>org.apache.sedona</groupId>

            <artifactId>sedona-core-3.0_2.12</artifactId>

            <version>1.1.1-incubating</version>

        </dependency>

        <dependency>

            <groupId>org.apache.sedona</groupId>

            <artifactId>sedona-sql-3.0_2.12</artifactId>

            <version>1.1.1-incubating</version>

        </dependency>

        <dependency>

            <groupId>org.apache.sedona</groupId>

            <artifactId>sedona-viz-3.0_2.12</artifactId>

            <version>1.1.1-incubating</version>

        </dependency>

        <dependency>

            <groupId>org.locationtech.jts</groupId>

            <artifactId>jts-core</artifactId>

            <version>1.18.0</version>

        </dependency>

    </dependencies>

    <build>

        <resources>

            <resource>

                <directory>src/main/resources</directory>

                <filtering>true</filtering>

            </resource>

        </resources>

        <plugins>

            <plugin>

                <groupId>net.alchim31.maven</groupId>

                <artifactId>scala-maven-plugin</artifactId>

                <version>3.2.1</version>

                <configuration>

                    <source>1.8</source>

                    <target>1.8</target>

                    <scalaVersion>${scala.version}</scalaVersion>

                </configuration>

                <executions>

                    <execution>

                        <id>scala-compile-first</id>

                        <phase>process-resources</phase>

                        <goals>

                            <goal>add-source</goal>

                            <goal>compile</goal>

                        </goals>

                    </execution>

                    <execution>

                        <id>scala-test-compile</id>

                        <phase>process-test-resources</phase>

                        <goals>

                            <goal>testCompile</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-shade-plugin</artifactId>

                <version>3.2.1</version>

                <configuration>

                    <artifactSet>

                        <excludes>

                            <exclude>org.slf4j:*</exclude>

                        </excludes>

                    </artifactSet>

                </configuration>

                <executions>

                    <execution>

                        <phase>package</phase>

                        <goals>

                            <goal>shade</goal>

                        </goals>

                        <configuration>

                            <createDependencyReducedPom>false</createDependencyReducedPom>

                            <filters>

                                <filter>

                                    <artifact>*:*</artifact>

                                    <excludes>

                                        <exclude>META-INF/*.SF</exclude>

                                        <exclude>META-INF/*.DSA</exclude>

                                        <exclude>META-INF/*.RSA</exclude>

                                    </excludes>

                                </filter>

                            </filters>

                            <transformers>

                                <transformer implementation="org.apache.maven.plugins.shade.resource.ServicesResourceTransformer" />

                            </transformers>

                        </configuration>

                    </execution>

                </executions>

            </plugin>

        </plugins>

    </build>

</project>

执行spark-submit --master yarn --driver-memory=2G --class com.grady.sedona.SedonaReadCsv /app/data/appdeploy/sedona-1.0-SNAPSHOT.jar

日志:

+----+-----+

| _c0|  _c1|

+----+-----+

| 1.1|101.1|

| 2.1|102.1|

| 3.1|103.1|

| 4.1|104.1|

| 5.1|105.1|

| 6.1|106.1|

| 7.1|107.1|

| 8.1|108.1|

| 9.1|109.1|

|10.1|110.1|

+----+-----+

+------------------+

|        pointshape|

+------------------+

| POINT (1.1 101.1)|

| POINT (2.1 102.1)|

| POINT (3.1 103.1)|

| POINT (4.1 104.1)|

| POINT (5.1 105.1)|

| POINT (6.1 106.1)|

| POINT (7.1 107.1)|

| POINT (8.1 108.1)|

| POINT (9.1 109.1)|

|POINT (10.1 110.1)|

|POINT (11.1 111.1)|

|POINT (12.1 112.1)|

|POINT (13.1 113.1)|

|POINT (14.1 114.1)|

|POINT (15.1 115.1)|

|POINT (16.1 116.1)|

|POINT (17.1 117.1)|

|POINT (18.1 118.1)|

|POINT (19.1 119.1)|

|POINT (20.1 120.1)|

+------------------+

only showing top 20 rows

sedona(Geospark)读取csv的更多相关文章

sparkR读取csv文件
sparkR读取csv文件 The general method for creating SparkDataFrames from data sources is read.df. This met ...
C# 读取 CSV 文件
最近做一个C#项目要导入CSV文件中的数据到Oracle中,使用Aspose.Cells读取中文字段标题却乱码,表的最后多出几行null记录,而且不是免费的,后来找到了NPOI,顾名思义,就是POI的 ...
PHP读取CSV数据写入数据库
/*读取csv文件*/ public function testCsv(){ $fileName = "tel.csv"; $fp=fopen($fileName,"r& ...
VB6.0 读取CSV文件
最近做了一个Upload文件的需求,文件的格式为CSV,读取文件的方法整理了一下,如下: 1.先写了一个读取CSV文件的Function: '读取CSV文件 '假设传入的参数strFile=C:\Do ...
php读取csv文件，在linux上出现中文读取不到的情况解决方法
今,php读取csv文件,在linux上出现中文读取不到的情况,google,后找到解决办法<?phpsetlocale(LC_ALL, 'zh_CN');$row = 1;$handle = ...
内容写到 csv 格式的文件中及读取 csv 格式的文件内容
<?php/*把内容写到 csv 格式的文件中基本思路是:1.用 $fp = fopen("filename", 'mode')打开一个csv文件,可以是打开时才建立的2. ...
Unity 读取CSV与Excel
前几天看到我们在游戏中需要动态加载某些角色的游戏策划值,关于这个问题怎么解决呢?其实办法很多种,归根到底,就是数据的读取.我们可以想到的存储数据的载体有很多.例如:txt,xml,csv,excel. ...
使用univocity-parsers创建和读取csv文件
import com.univocity.parsers.csv.CsvFormat;import com.univocity.parsers.csv.CsvParser;import com.uni ...
PHP读取CSV大文件导入数据库的示例
对于数百万条数据量的CSV文件,文件大小可能达到数百M,如果简单读取的话很可能出现超时或者卡死的现象. 为了成功将CSV文件里的数据导入数据库,分批处理是非常必要的. 下面这个函数是读取CSV文件中指 ...

随机推荐

基于bat脚本的前端发布流程的优化
背景介绍前面在基于bat脚本的前端发布流程设计与实现中,我已经介绍了设计与实现,这一篇主要是针对其的一个优化折腾(分两步走,第一步先搞出来,第二步再想着怎么去优化它),我主要做了以下几件事. &qu ...
【python基础】第03回软件安装
上节内容回顾 1.计算机五大组成部分详解 1.控制器控制计算机各个硬件的工作 2.运算器数学运算.逻辑运算(核心) """CPU = 控制器 + 运算器"& ...
oracle备份数据库数据及导入数据库
1.oracle数据库备份和导入 bat 脚本 scott oracle数据库用户名称 123456 数据库scott用户下的密码 192.168.124.8 本电脑IP orcl 为oracle库 ...
CentOS 7 快速安装docker-compose
安装docker-composegithub的地址下载太慢了,国内可以使用http://get.daocloud.io/#install-compose网站上面的地址. 首先下载docker-comp ...
一题多解，ASP.NET Core应用启动初始化的N种方案[上篇]
ASP.NET Core应用本质上就是一个由中间件构成的管道,承载系统将应用承载于一个托管进程中运行起来,其核心任务就是将这个管道构建起来.在ASP.NET Core的发展历史上先后出现了三种应用承载 ...
Mybatis整合第三方缓存
1) 为了提高扩展性.MyBatis定义了缓存接口Cache.我们可以通过实现Cache接口来自定义二级缓存 2) EhCache 是一个纯Java的进程内缓存框架,具有快速.精干等特点. 3) 整合 ...
对象数组和对象对象数组的for-each循环
对象数组的声明类名称对象数组名[] = null: 对象数组名 = new 类名称[长度] 定义并开辟数组类名称对象数据名[] = new 类名称[长度]; 在声明一个对象数组后,必须对每个数 ...
比起网易有数BI，也许这款数据可视化软件更适合你！
有数BI是网易推出的面向企业客户的可视化敏捷BI产品.拥有数据填报和自助式商业智能分析产品,提供网页端和手机端应用,帮助客户快速实现数据填报.多维分析.大数据探索.实时大数据展示和成员分享. 山海鲸可 ...
Idea 编译jsp生成的class文件路径
找到work\Catalina\localhost\ 然后访问响应的JSP地址才会动态生成到这个路径下面,不访问不会生成,在org\apache\jsp 下面
Josephus问题(Ⅲ)
题目描述 n个人排成一圈,按顺时针方向依次编号1,2,3-n.从编号为1的人开始顺时针"一二三...."报数,报到m的人退出圈子.这样不断循环下去,圈子里的人将不断减少.最终一定会 ...

sedona(Geospark)读取csv

sedona(Geospark)读取csv的更多相关文章

随机推荐

热门专题