这两天在用spark做点击率的贝叶斯平滑，参考雅虎的论文进行了一番尝试。

先上代码：

 # click_count, show_count # this method takes time

 def do_smooth(data_list):

     import scipy.special as sp

     a, b, i = 1.0, 1.0, 0

     da, db = a, b

     while i < 1000 and (da > 1.0E-10 or db > 1.0E-10):

         x1, y1, x2 = 0.0, 0.0, 0.0

         for lineList in data_list:

             x1 += sp.digamma((lineList[0]) + a) - sp.digamma(a)

             y1 += sp.digamma((lineList[1]) + a + b) - sp.digamma(a + b)

             x2 += sp.digamma((lineList[1]) - (lineList[0]) + b) - sp.digamma(b)

         na, nb = a, b

         a *= (x1 / y1)

         b *= (x2 / y1)

         da, db = abs(a - na), abs(b - nb)

         i += 1

     print i, a, b

     return a, b

这是我之前用的python代码，改成scala也相当容易，digamma函数非常耗时，而且还要迭代1000次。最要命的是digamma在scala里面默认的实现会出现栈溢出！！！

var a, b, da, db: Double = 1.0

var index = 0

while (index < 1000 && (da > 1.0E-9 || db > 1.0E-9)) {

    var x1,x2,y1 = 0.0

    traindata.foreach(p => {

        x1 += MBlas.digamma(p(2) + a) - MBlas.digamma(a)

        y1 += MBlas.digamma(p(1) + a + b) - MBlas.digamma(a + b)

        x2 += MBlas.digamma(p(1) - p(2) + b) - MBlas.digamma(b)

        val na = a

        val nb = b

        a *= (x1 / y1)

        b *= (x2 / y1)

        da = Math.abs(a - na)

        db = Math.abs(b - nb)

    })

}

digamma 函数是个递归函数，问题就处在递归上了。

    public static double digamma(double x) {

         if (x > 0 && x <= S_LIMIT) {

             return -GAMMA - 1 / x;

         }

         if (x >= C_LIMIT) {

             double inv = 1 / (x * x);

             return FastMath.log(x) - 0.5 / x - inv * ((1.0 / 12) + inv * (1.0 / 120 - inv / 252));

         }

         return digamma(x + 1) - 1 / x;

     }

既然知道问题所在，是不是就可以重写递归为非递归呢？在Stack Overflow上找到了一个答案

 val GAMMA = 0.577215664901532860606512090082

 val GAMMA_MINX = 1.e-12

 val DIGAMMA_MINNEGX = -1250

 val C_LIMIT = 49

 val S_LIMIT = 1e-5

 var value = 0.0

 var x = input

 while (true) {

     if (x >= 0 && x < GAMMA_MINX) x = GAMMA_MINX

     if (x < DIGAMMA_MINNEGX) {

         x = DIGAMMA_MINNEGX + GAMMA_MINX

     } else {

         if (x > 0 && x <= S_LIMIT) return value + -GAMMA - 1 / x

         if (x >= C_LIMIT) {

             val inv = 1 / (x * x)

             return value + Math.log(x) - 0.5 / x - inv * ((1.0 / 12) + inv * (1.0 / 120 - inv / 252))

         }

         value = value - 1.0 / x

         x += 1

     }

 }

经测试，没看出什么问题，可以用了。
不过，上面的代码并没有解决慢的问题，当需要计算CTR的对象比较多时（几百万），仍然比较耗时。所以我决定用两个替代方法：

抽样，抽取能在可接受时间内出结果的样本数，得到α和β；
直接使用平均值作为α和β
使用平均值做迭代初值（推荐）

参考：
1. 雅虎专家的论文，如上
2. Stack Overflow 网友代码，如上

Scala-Spark digamma stackoverflow问题的更多相关文章

brdd 惰性执行 mapreduce 提取指定类型值 WebUi 作业信息全局临时视图 pyspark scala spark 安装
[rdd 惰性执行] 为了提高计算效率 spark 采用了哪些机制 1-rdd 基于分布式内存数据集进行运算 2-lazy evaluation :惰性执行,即rdd的变换操作并不是在运行该代码时立 ...
Eclipse+maven+scala+spark环境搭建
准备条件我用的Eclipse版本 Eclipse Java EE IDE for Web Developers. Version: Luna Release (4.4.0) 我用的是Eclipse ...
在IntelliJ IDEA中创建和运行java/scala/spark程序
本文将分两部分来介绍如何在IntelliJ IDEA中运行Java/Scala/Spark程序: 基本概念介绍在IntelliJ IDEA中创建和运行java/scala/spark程序基本概念介 ...
eclipse构建maven+scala+spark工程转载
转载地址:http://jingpin.jikexueyuan.com/article/47043.html 本文先叙述如何配置eclipse中maven+scala的开发环境,之后,叙述如何实现sp ...
Windows下Eclipse+Scala+Spark开发环境搭建
1.安装JDK及配置java环境变量本文使用版本为jdk1.7.0_79,过程略 2.安装scala 本文使用版本为2.11.8,过程略 3.安装spark 本文使用版本为spark-2.0.1-b ...
Scala - Spark Lambda“goesto“ => 分析
/// 定义一个函数AddNoise,参数分别为rdd,Fraction.其中rdd为(BreezeDenseMatrix, BreezeDenseMatrix)元组构成的RDD.Fraction为一 ...
Eclipse + Idea + Maven + Scala + Spark +sbt
http://jingpin.jikexueyuan.com/article/47043.html 新的scala 编译器idea使用 https://www.jetbrains.com/idea/h ...
eclipse构建maven+scala+spark工程
前提条件下载安装Scala IDE build of Eclipse SDK 构建工程 1.新建maven工程 2.配置项目信息 3.新建scala对应的Source Folder 4.添加scal ...
scala spark 机器学习初探
Transformer: 是一个抽象类包含特征转换器, 和最终的学习模型, 需要实现transformer方法通常transformer为一个RDD增加若干列, 最终转化成另一个RDD, 1. 特征 ...

随机推荐

【★】深入BGP原理和思想【第…
前言:学思科技术我想说,浅尝辄止,不是天才千万别深钻.和我研究高等数学一样,越深入就会发现越多的问题与不合理之处.尤其对于IT界,算法的最终解释权还是掌握在老外手中,所以对于有些细节,我们" ...
团队作业4--第一次项目冲刺（Alpha版本）6
一.Daily Scrum Meeting照片二.燃尽图三.项目进展 1.对功能界面进行优化 2.对算法进行改进优化,提高运行速度四.困难与问题首先我们团队通过讨论,对功能界面进行了优化,让界 ...
【Alpha阶段】第五次scrum meeting
一.会议照片二.会议内容姓名学号负责模块昨日任务完成度今日任务杨爱清 099 界面设计和交互功能完成去酷狗选择合适的轻音乐杨立鑫 100 数据库搭建和其他完成继续对数据库进行编 ...
团队作业4——第一次项目冲刺（Alpha版本）7th day
一.Daily Scrum Meeting照片二.燃尽图三.项目进展在计时模式下能够记录用户的用户名和成绩,没有弄登录功能, 将程序定义为单机的未完成的卡片为登录功能和使用QQ登录. 四.困难 ...
201521123118《java程序与设计》第6周学习总结
1. 本周学习总结 1.1 面向对象学习暂告一段落,请使用思维导图,以封装.继承.多态为核心概念画一张思维导图,对面向对象思想进行一个总结. 注1:关键词与内容不求多,但概念之间的联系要清晰,内容覆盖 ...
201521123055 《Java程序设计》第11周学习总结
1. 本章学习总结 2. 书面作业 Q1.互斥访问与同步访问 ** 完成题集4-4(互斥访问)与4-5(同步访问) ** 1.1 除了使用synchronized修饰方法实现互斥同步访问,还有什么办法 ...
Servlet第四篇【request对象常用方法、应用】
什么是HttpServletRequest HttpServletRequest**对象代表客户端的请求,当客户端通过HTTP协议访问服务器时,**HTTP请求头中的所有信息都封装在这个对象中,开发人 ...
03标准对象-01-Date和JSON
0.写在前面的话在JS世界中,一切都是对象,区别对象类型使用tyepof,返回一个字符串,如: typeof 123; // 'number' typeof NaN; // 'number' typ ...
ACM学习之路___HDU 5723(kruskal + dfs)
Abandoned country Time Limit: / MS (Java/Others) Memory Limit: / K (Java/Others) Total Submission(s) ...
OpenStack Ocata 超详细搭建文档
前言搭建前必须看我本文档搭建的是分布式O版openstack(controller+ N compute + 1 cinder)的文档.openstack版本为Ocata.搭建的时候,请严格按照文档 ...

Scala-Spark digamma stackoverflow问题

这两天在用spark做点击率的贝叶斯平滑，参考雅虎的论文进行了一番尝试。

Scala-Spark digamma stackoverflow问题的更多相关文章

随机推荐

热门专题