这两天在用spark做点击率的贝叶斯平滑，参考雅虎的论文进行了一番尝试。

先上代码：

 # click_count, show_count # this method takes time

 def do_smooth(data_list):

     import scipy.special as sp

     a, b, i = 1.0, 1.0, 0

     da, db = a, b

     while i < 1000 and (da > 1.0E-10 or db > 1.0E-10):

         x1, y1, x2 = 0.0, 0.0, 0.0

         for lineList in data_list:

             x1 += sp.digamma((lineList[0]) + a) - sp.digamma(a)

             y1 += sp.digamma((lineList[1]) + a + b) - sp.digamma(a + b)

             x2 += sp.digamma((lineList[1]) - (lineList[0]) + b) - sp.digamma(b)

         na, nb = a, b

         a *= (x1 / y1)

         b *= (x2 / y1)

         da, db = abs(a - na), abs(b - nb)

         i += 1

     print i, a, b

     return a, b

这是我之前用的python代码，改成scala也相当容易，digamma函数非常耗时，而且还要迭代1000次。最要命的是digamma在scala里面默认的实现会出现栈溢出！！！

var a, b, da, db: Double = 1.0

var index = 0

while (index < 1000 && (da > 1.0E-9 || db > 1.0E-9)) {

    var x1,x2,y1 = 0.0

    traindata.foreach(p => {

        x1 += MBlas.digamma(p(2) + a) - MBlas.digamma(a)

        y1 += MBlas.digamma(p(1) + a + b) - MBlas.digamma(a + b)

        x2 += MBlas.digamma(p(1) - p(2) + b) - MBlas.digamma(b)

        val na = a

        val nb = b

        a *= (x1 / y1)

        b *= (x2 / y1)

        da = Math.abs(a - na)

        db = Math.abs(b - nb)

    })

}

digamma 函数是个递归函数，问题就处在递归上了。

    public static double digamma(double x) {

         if (x > 0 && x <= S_LIMIT) {

             return -GAMMA - 1 / x;

         }

         if (x >= C_LIMIT) {

             double inv = 1 / (x * x);

             return FastMath.log(x) - 0.5 / x - inv * ((1.0 / 12) + inv * (1.0 / 120 - inv / 252));

         }

         return digamma(x + 1) - 1 / x;

     }

既然知道问题所在，是不是就可以重写递归为非递归呢？在Stack Overflow上找到了一个答案

 val GAMMA = 0.577215664901532860606512090082

 val GAMMA_MINX = 1.e-12

 val DIGAMMA_MINNEGX = -1250

 val C_LIMIT = 49

 val S_LIMIT = 1e-5

 var value = 0.0

 var x = input

 while (true) {

     if (x >= 0 && x < GAMMA_MINX) x = GAMMA_MINX

     if (x < DIGAMMA_MINNEGX) {

         x = DIGAMMA_MINNEGX + GAMMA_MINX

     } else {

         if (x > 0 && x <= S_LIMIT) return value + -GAMMA - 1 / x

         if (x >= C_LIMIT) {

             val inv = 1 / (x * x)

             return value + Math.log(x) - 0.5 / x - inv * ((1.0 / 12) + inv * (1.0 / 120 - inv / 252))

         }

         value = value - 1.0 / x

         x += 1

     }

 }

经测试，没看出什么问题，可以用了。
不过，上面的代码并没有解决慢的问题，当需要计算CTR的对象比较多时（几百万），仍然比较耗时。所以我决定用两个替代方法：

抽样，抽取能在可接受时间内出结果的样本数，得到α和β；
直接使用平均值作为α和β
使用平均值做迭代初值（推荐）

参考：
1. 雅虎专家的论文，如上
2. Stack Overflow 网友代码，如上

Scala-Spark digamma stackoverflow问题的更多相关文章

brdd 惰性执行 mapreduce 提取指定类型值 WebUi 作业信息全局临时视图 pyspark scala spark 安装
[rdd 惰性执行] 为了提高计算效率 spark 采用了哪些机制 1-rdd 基于分布式内存数据集进行运算 2-lazy evaluation :惰性执行,即rdd的变换操作并不是在运行该代码时立 ...
Eclipse+maven+scala+spark环境搭建
准备条件我用的Eclipse版本 Eclipse Java EE IDE for Web Developers. Version: Luna Release (4.4.0) 我用的是Eclipse ...
在IntelliJ IDEA中创建和运行java/scala/spark程序
本文将分两部分来介绍如何在IntelliJ IDEA中运行Java/Scala/Spark程序: 基本概念介绍在IntelliJ IDEA中创建和运行java/scala/spark程序基本概念介 ...
eclipse构建maven+scala+spark工程转载
转载地址:http://jingpin.jikexueyuan.com/article/47043.html 本文先叙述如何配置eclipse中maven+scala的开发环境,之后,叙述如何实现sp ...
Windows下Eclipse+Scala+Spark开发环境搭建
1.安装JDK及配置java环境变量本文使用版本为jdk1.7.0_79,过程略 2.安装scala 本文使用版本为2.11.8,过程略 3.安装spark 本文使用版本为spark-2.0.1-b ...
Scala - Spark Lambda“goesto“ => 分析
/// 定义一个函数AddNoise,参数分别为rdd,Fraction.其中rdd为(BreezeDenseMatrix, BreezeDenseMatrix)元组构成的RDD.Fraction为一 ...
Eclipse + Idea + Maven + Scala + Spark +sbt
http://jingpin.jikexueyuan.com/article/47043.html 新的scala 编译器idea使用 https://www.jetbrains.com/idea/h ...
eclipse构建maven+scala+spark工程
前提条件下载安装Scala IDE build of Eclipse SDK 构建工程 1.新建maven工程 2.配置项目信息 3.新建scala对应的Source Folder 4.添加scal ...
scala spark 机器学习初探
Transformer: 是一个抽象类包含特征转换器, 和最终的学习模型, 需要实现transformer方法通常transformer为一个RDD增加若干列, 最终转化成另一个RDD, 1. 特征 ...

随机推荐

201521123082 《Java程序设计》第9周学习总结
201521123082 <Java程序设计>第9周学习总结标签(空格分隔):java 1.本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结异常相关内容. 2. 书面作业 ...
团队作业4——第一次项目冲刺（Alpha版本） Day2
1.Day 2 站立式会议: 2.leangoo任务分截图: 3.会议记录及任务分配: 队员今日进展明日安排林燕完善逻辑架构框架,继续学习微信开发完成4.24随笔王李焕初步总结微信开发的 ...
Java课程设计—象棋
1. 团队名称.团队成员介绍团队名称:WY 团队成员: 吴慧婷[组长] 201521123094 网络1514 姚佳希 201521123042 网络1512 2 项目git地址 Java课程设计 ...
201521123056 《Java程序设计》第14周学习总结
1. 本周学习总结 2. 书面作业 1. MySQL数据库基本操作建立数据库,将自己的姓名.学号作为一条记录插入.(截图,需出现自己的学号.姓名) 在自己建立的数据库上执行常见SQL语句(截图) 参 ...
201521123024 《Java程序设计》第11周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多线程相关内容. 2. 书面作业本次PTA作业题集多线程 1.互斥访问与同步访问完成题集4-4(互斥访问)与4-5(同步访问) ...
201521123030 《Java程序设计》第11周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多线程相关内容. 2. 书面作业本次PTA作业题集多线程 1.互斥访问与同步访问完成题集4-4(互斥访问)与4-5(同步访问) ...
java命令行执行带依赖jar包的main函数
有时候客户端没有运行环境,需要将程序放到服务器上执行,可按如下操作: 1.创建libs文件夹,将运行过程中依赖的jar包全部拷贝到此处; 2.编译.执行 javac -Djava.ext.dirs=l ...
Java内部类的总结
内部类是指在一个外部类的内部再定义一个类.类名不需要和文件夹相同. 内部类分为: 成员内部类.局部内部类.静态嵌套类.匿名内部类 . 1.成员内部类成员内部类是最普通的内部类,它的定义为位于另一个类 ...
Dodobox一个基于所有平台的嵌入式操作系统（OS）
DodoBox是为广大应用开始者提供的一个跨平台应用发布平台.它提供了客户端和服务器端的SDK及详细的开发者帮助文件,帮助开发者创建.移植软件应用或游戏应用. DodoBox基于OpenGL技术,提供 ...
HTML文本
1.HTML元素 2.HTML属性 3.HTML文本格式化 4.HTML样式 1.HTML元素 1.什么是HTML元素 HTML 元素指的是从开始标签(start tag)到结束标签(end tag) ...

Scala-Spark digamma stackoverflow问题

这两天在用spark做点击率的贝叶斯平滑，参考雅虎的论文进行了一番尝试。

Scala-Spark digamma stackoverflow问题的更多相关文章

随机推荐

热门专题