geoip ip2region2 with spark

上一篇文章中我使用 maxmind的免费库开发了一个waterdrop的插件，测试数据发现，国内的有些市级还是不准确，而且香港并不是显示中国，这就不友好了。

找了一下，发下 ip2region 这个很不错。https://github.com/lionsoul2014/ip2region

我使用这个库，然后使用之前的代码，稍加修改，测试了一下，效果还是不错的。基本没有再出现空的值。

关于查询效率上，如作者所说,memsearch最快，我测试了确实如此，但是会出现一开始的一些spark流的批次效率稍差一些，慢慢地会提上去

package com.student

import io.github.interestinglab.waterdrop.apis.BaseFilter

import com.typesafe.config.{Config, ConfigFactory}

import org.apache.spark.SparkFiles

import org.apache.spark.sql.{Dataset, Row, SparkSession}

import org.apache.spark.sql.functions.{col, udf}

import scala.collection.JavaConversions._

import org.lionsoul.ip2region.DbConfig

import org.lionsoul.ip2region.DbSearcher

import scala.collection.JavaConversions._

import org.lionsoul.ip2region.DbConfig

import org.lionsoul.ip2region.DbSearcher

object SearcherWrapper extends Serializable {

  @transient lazy val searcher = {

    val config = new DbConfig

    val dbfile = SparkFiles.get("ip2region.db")

    val searcher = new DbSearcher(config, dbfile)

    searcher

  }

}

class IP2Region2 extends BaseFilter {

  var config: Config = ConfigFactory.empty()

  /**

    * Set Config.

    **/

  override def setConfig(config: Config): Unit = {

    this.config = config

  }

  /**

    * Get Config.

    **/

  override def getConfig(): Config = {

    this.config

  }

  override def checkConfig(): (Boolean, String) = {

    val requiredOptions = List("source_field")

    val nonExistsOptions: List[(String, Boolean)] = requiredOptions.map { optionName =>

      (optionName, config.hasPath(optionName))

    }.filter { p =>

      !p._2

    }

    if (nonExistsOptions.length == 0) {

      (true, "")

    } else {

      (false, "please specify setting as non-empty string")

    }

  }

  override def prepare(spark: SparkSession): Unit = {

    val defaultConfig = ConfigFactory.parseMap(

      Map(

        "source_field" -> "raw_message",

        "target_field" -> "__ROOT__"

      )

    )

    config = config.withFallback(defaultConfig)

  }

  override def process(spark: SparkSession, df: Dataset[Row]): Dataset[Row] = {

    val srcField = config.getString("source_field")

    val ip2region=udf{ip:String => ip2Location2(ip)}

     import  org.apache.spark.sql.functions.split

     df.withColumn("__region__", ip2region(col(srcField)))

      .withColumn("__country__",split(col("__region__"),"\\|")(0))

      .withColumn("__province__",split(col("__region__"),"\\|")(2))

      .withColumn("__city__",split(col("__region__"),"\\|")(3))

       .withColumn("__isp__",split(col("__region__"),"\\|")(4))

  }

  def ip2Location2(ip: String) = {

    try {

      val searcher = SearcherWrapper.searcher

      val response = searcher.memorySearch(ip)

      response.getRegion

    }

    catch {

      case ex: Exception =>

       // ex.printStackTrace()

        ""

    }

  }

}

geoip ip2region2 with spark的更多相关文章

spark streaming 使用geoIP解析IP
1.首先将GEOIP放到服务器上,如,/opt/db/geo/GeoLite2-City.mmdb 2.新建scala sbt工程,测试是否可以顺利解析 import java.io.Fileimpo ...
spark geoip
import java.io.File import scala.io.Source import com.sanoma.cda.geoip.MaxMindIpGeo import com.sanom ...
spark操作geoip的domain数据库
val ipv4 = sc.textFile("hdfs://hbase11:9000/sparkTsData/GeoIP2-Domain-Blocks-IPv4.csv").ma ...
geoip scala api
#!/bin/bash /home/hadoop/spark-1.6.2/bin/spark-shell --master spark://hbase11:7077 --executor-memory ...
使用Java编写并运行Spark应用程序
我们首先提出这样一个简单的需求: 现在要分析某网站的访问日志信息,统计来自不同IP的用户访问的次数,从而通过Geo信息来获得来访用户所在国家地区分布状况.这里我拿我网站的日志记录行示例,如下所示: 1 ...
Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...
Spark RDD 核心总结
摘要: 1.RDD的五大属性 1.1 partitions(分区) 1.2 partitioner(分区方法) 1.3 dependencies(依赖关系) 1.4 compute(获取分区迭代列表) ...
spark处理大规模语料库统计词汇
最近迷上了spark,写一个专门处理语料库生成词库的项目拿来练练手, github地址:https://github.com/LiuRoy/spark_splitter.代码实现参考wordmaker ...
Hive on Spark安装配置详解（都是坑啊）
个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/p/a7f75b868568 简介本文主要记录如何安装配置Hive on Sp ...

随机推荐

closest和parents方法区别
今天第一次看到closest方法,以前也从来没用过. 该方法从元素本身开始往上查找,返回最近的匹配的祖先元素. 1.closest查找开始于自身,parents开始于元素父级 2.closest向上查 ...
js 获取js自身参数
页面中有<script id="comjs" src="js/common.js?cname=mad&cid=500&uid=smpx"& ...
Ubuntu matplotlib显示中文乱码的解决方法
https://blog.csdn.net/huuinn/article/details/78968966
day10-12_线程queue(了解)
queue队列 :使用import queue,用法与进程Queue一样 queue is especially useful in threaded programming when informa ...
HDU 5572 An Easy Physics Problem【计算几何】
计算几何的题做的真是少之又少. 之前wa以为是精度问题,后来发现是情况没有考虑全... 题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=5572 题意: ...
流程控制 Day06
package com.sxt.arraytest2; public class breakTest { public static void main(String[] args) { label: ...
UVa-10986_Sending email (向前星+Dijkstra)
题意:给你点.边,求起点到终点的最短距离. 题解:由于题目的数据量特别大,所以需要用邻接表来存边,之后对Dijkstra算法稍微魔改一下就可以了,本来以为会超时,做好了打堆优化的准备,结果卡时间过了, ...
qt 中lineEdit->setText()输出double
在qt中需要将获取到的double 值在ui界面上显示出来,便于观察.但是lineEdit控件的setText()要求的参数是string. 所以我们先要进行转化,将double 转化为string. ...
5.0.1版本的react-router-dom路由传参以及路由表的配置和接收页面的接受
//第一种通过问号传参 //发送 this.props.history.push("/detail?id="+item.downurl) //路由表配置 <Route pa ...
day2_python之字符编码
一 .计算机基础知识二.文本编辑器存取文件的原理(nodepad++,pycharm,word) #1.打开编辑器就打开了启动了一个进程,是在内存中的,所以,用编辑器编写的内容也都是存放与内存中的, ...

geoip ip2region2 with spark

geoip ip2region2 with spark的更多相关文章

随机推荐

热门专题