Spark- 使用第三方依赖解析IP地址

使用 github上已有的开源项目
1)git clone https://github.com/wzhe06/ipdatabase.git

2)编译下载的项目: mvn clean package- DskipTests

3)安装jar包到自己的 maven仓库

　　mvn install: install-file -Dfile=${编译的jar包路径}/target/ipdatabase-1.0-SNAPSHOT jar -DgroupId=com.ggstar -DartifactId=ipdatabase -Dversion=1.0 -Dpackaging=jar

4)添加依赖到pom

<dependency>

　　<groupId>com.ggstar<groupId>

　　<artifactId>ipdatabase</artifactId>

　　<version>1.0</version>

</dependency>

<dependency>

　　<groupId>org.apache.poi</groupId>

　　<cartifactId>poi-ooxml</artifactId>

　　<version>3.14</version>

</dependency>

<dependency>

　　<groupId>org.apache.poi</groupId> 
　　<cartifactId>poi</artifactId>
 　<version>3.14</version> 
</dependency>

5)将源码main/resource下的ipDatabase.csv和ipRegion.xlxs拷贝到当前项目的resource目录下

6)ip解析工具类

/**

  * IP解析工具类

  */

object IpUtils {

  def getCity(ip:String): Unit ={

    IpHepler.findRegionByIp(ip)

  }

}

7）打包到yarn运行

在pom文件排除spark打包，因为环境上有。

<!--scala 依赖-->

    <dependency>

      <groupId>org.scala-lang</groupId>

      <artifactId>scala-library</artifactId>

      <version>${scala.version}</version>

      <scope>provided</scope>

    </dependency>

    <!--SparkSQL-->

    <dependency>

      <groupId>org.apache.spark</groupId>

      <artifactId>spark-sql_2.11</artifactId>

      <version>${spark.version}</version>

      <scope>provided</scope>

    </dependency>

    <dependency>

      <groupId>org.apache.spark</groupId>

      <artifactId>spark-hive_2.11</artifactId>

      <version>${spark.version}</version>

      <scope>provided</scope>

    </dependency>

打包时注意，pom.xml中需要添加如下plugin

<plugin>

        <artifactId>maven-assembly-plugin</artifactId>

        <configuration>

          <archive>

            <mainfest>

              <mainClass></mainClass>

            </mainfest>

          </archive>

          <descriptRefs>

            <descriptRef>

              jar-with-dependencies

            </descriptRef>

          </descriptRefs>

        </configuration>

      </plugin>

      <plugin>

提交运行

/bin/spark-submit

class com.rz.log.SparkstatcleanJobYARN

--name SparkstatcleanJobYARN

--master yarn

--executor-memory 1G

--num-executors 1\

--files /home/hadoop/Lib/ipDatabase. CSV, /home/hadoop/lib/ipRegion XlSx \

/home/hadoop/lib/sql-1.0-jar-with-dependencies.jar \

hdfs://hadoop001:8020/imooc/input/* hdfs://hadoop001: 8020/imooc/clean

Spark- 使用第三方依赖解析IP地址的更多相关文章

关于域名系统DNS解析IP地址的一些总结
关于域名系统DNS(Domain Name System) 从域名中解析出IP地址. DNS主要由3部分组成: ① 名称解析器(resolver) ② 域名空间(domain name space) ...
JavaMail SMTP服务器发送邮件程序示例 java通过dns服务器解析ip地址
/** * JavaMail SMTP服务器发送邮件程序示例 * 扮演SMTP服务器角色与邮件客户端软件最大的区别就是: * SMTP服务器需要解析不同接收人邮件地址主机名对应的SMTP服务器主机名 ...
通过阿里云域名动态解析 IP 地址
这两天在家里用树莓派折腾了一个家用服务器,主要用来做 mac 的 Time Machine ,还有就是当做下载机和 nas ,想着平时上班时间家里没人用网络,空着也是空着,就可以利用空闲带宽下个美剧啥 ...
使用python解析ip地址
前言想要批量将ip地址转换为省份城市.国家或是经纬度?百度上的批量查找每次的容量太小满足不了要求?第三方库神器 - geoip2帮你解决所有烦恼. 准备工作首先安装一下geoip2库, pip i ...
嵌入式开发之函数解析---ip地址2进制转字符inet_ntoa 调用中只生效一次
inet_addr() 简述:将一个点间隔地址转换成一个in_addr. #include <winsock.h> unsigned long PASCAL FAR inet_addr ...
DataLakeAnalytics: 解析IP地址对应的国家城市地址的能力
Data Lake Analytics 作为云上数据处理的枢纽,最近加入了通过IP地址查找对应的国家.省份.城市.ISP的函数, 今天带大家体验一下. 函数详细介绍本次一共添加了下面这些函数: ip ...
spark streaming 使用geoIP解析IP
1.首先将GEOIP放到服务器上,如,/opt/db/geo/GeoLite2-City.mmdb 2.新建scala sbt工程,测试是否可以顺利解析 import java.io.Fileimpo ...
最新IP地址数据库
2016年12月1日最新发行版 265051条数据基于:国内基于省市区以及运营商国外基于国家版本:全球旗舰版国内精华版国外拓展版英文版掩码版字段:大洲国家省份城市县区运营 ...
PHP 使用 GeoLiteCity 库解析 IP 为地理位置
关于把 IP 地址转换为地理位置可以使用网络上很多的 API,好处就是不用在本地存储一个 IP 数据库,而且一般网络上的 IP 库会自动更新,不利的地方就是太依赖于网络,性能表现也可能会弱些.比如像下 ...

随机推荐

巨蟒python全栈开发-第24天内置常用模块3
一. 1.re模块基础知识 2.python模块&re正则模块 3.实战:re模块&python(链家&电影天堂&豆瓣) 复习:上节课重点(1)sys.path 模块的 ...
hdu 1159 Common Subsequence 【LCS 基础入门】
链接: http://acm.hdu.edu.cn/showproblem.php?pid=1159 http://acm.hust.edu.cn/vjudge/contest/view.action ...
AttachThreadInput
BOOL WINAPI AttachThreadInput( _In_ DWORD idAttach, _In_ DWORD idAttachTo, _In_ BOOL fAttach ); i ...
面向对象 - 1.软件开发/2.异常处理/3.try...except的详细用法
1.软件开发软件的开发其实一整套规范,我们所学的只是其中的一小部分,一个完整的开发过程,需要明确每个阶段的任务,在保证一个阶段正确的前提下再进行下一个阶段的工作,称之为软件工程面向对象的软件工程包 ...
git "Could not read from remote repository.Please make&n
git "Could not read from remote repository.Please make sure you have the correct access rights. ...
.net ASPxGridView 使用手记
统计汇总功能: TotalSummary属性:此属性必须设置KeyFieldName属性:Settings中的ShowFooter属性设置为True. DisplayFormat:同.net中的Str ...
python创建进程的两种方式
1.方式1 import time import multiprocessing def task(arg): time.sleep(2) print(arg) def run(): # 进程1 p1 ...
NYOJ 119 士兵杀敌（三）(RMQ算法）
採用的的是小牛的写法,蒟蒻第一次写.. RMQ (Range Minimum/Maximum Query)问题是指:对于长度为n的数列A,回答若干询问RMQ(A,i,j)(i,j<=n).返回数 ...
jQuery.extend()、jQuery.fn.extend()扩展方法具体解释
版权声明:本文为博主原创文章.未经博主同意不得转载. https://blog.csdn.net/dreamsunday/article/details/25193459 jQuery自己定义了jQu ...
修改hostname不重启机器并生效
1.依次执行: vi /etc/sysconfig/network 这种修改方式不会马上生效,需要重启服务器后生效,所以继续执行下面命令 echo ***(例如:node13 ...

Spark- 使用第三方依赖解析IP地址

Spark- 使用第三方依赖解析IP地址的更多相关文章

随机推荐

热门专题