常见优化算法实现

这里实现的主要算法有:

一维搜索方法:

黄金分割法

二次差值法

多维搜索算法

最速下降法

partan加速的最速下降法

共轭梯度法

牛顿法

拟牛顿法

使用函数表示一个用于优化的目标,包括其梯度函数和hessian矩阵函数

import numpy as np
import math
#用于测试的一个多元函数的例子
def f(x):
return (x[0]-1)**2+5*(x[1]-5)**2+(x[2]-1)**2+5*(x[3]-5)**2 #f(x)函数的gradient向量计算函数
def g(x):
return np.array([2*(x[0]-1),10*(x[1]-5),2*(x[2]-1),10*(x[3]-5)]) #f(x)函数的hessian矩阵的逆矩阵计算函数
def hi(x=None):
h=[1/2,1/10,1/2,1/10]
return np.diag(h)

拟牛顿法

def quasi_newton(f=f,x0=np.zeros(4),gradient=g,acc=0.001):
k=0
x=x0
xp=None
hpk=None
gpk=None while True:
gk=gradient(x)
#print(gk)
if np.sum(gk**2)<=acc:
#print("迭代 %d 次"%(k+1))
return x,np.round(f(x),5)
if k==0:
hik=np.eye(x0.shape[0])
else:
dx=x-xp
dg=gk-gpk temp = (dx-np.dot(hpk,dg)).reshape((-1,1))
hik=hpk + np.dot(temp,temp.transpose())/(np.dot(temp.transpose(),dg.reshape((-1,1))))
#print(hik) pk=-1*np.dot(hik,gk)
alpha,y=quadraticInterploation(lambda alpha:(f(alpha*pk+x)),0,10,0.001)
#更新变量
x=alpha*pk+x
hpk=hik
xp=x
gpk=gk
k+=1

共轭方向法

def conjugate_direction(f=f,x0=np.zeros(4),gradient=g,acc=0.001):
k=0
x=x0
#设置初值
gpk=x0
ppk=x0 while True:
gk=gradient(x)
#print(gk)
if np.sum(gk**2)<=acc:
#print("迭代 %d 次"%(k+1))
return x,np.round(f(x),5)
if k==0:
pk=-1*gk
else:
betak=np.sum(gk*gk)/np.sum(gpk*gpk)
pk=-1*gk+betak*ppk
#lambda表达式可以使用上层函数中的变量,这样对于不同的上下文,就是不同的函数
alpha,y=quadraticInterploation(lambda alpha:(f(alpha*pk+x)),0,10,0.001)
x=alpha*pk+x
ppk=pk
gpk=gk
k+=1

最速下降法

#最速下降法
def steepestDescent(f=f,x0=np.zeros(4),gradient=g,acc=0.001):
k=0
x=x0
while True:
gk=gradient(x)
pk=-1*gk
if np.sum(gk**2)<=acc:
#print("迭代 %d 次"%(k+1))
return x,f(x)
#lambda表达式可以使用上层函数中的变量,这样对于不同的上下文,就是不同的函数
alpha,y=quadraticInterploation(lambda alpha:(f(alpha*pk+x)),0,10,0.001)
x=alpha*pk+x
k+=1

牛顿法

def newton(f=f,x0=np.zeros(4),gradient=g,hessian=hi,acc=0.001):
k=0
x=x0
while True:
gk=gradient(x)
hik=hessian(x)
pk=-1*np.dot(gk,hik)
if np.sum(gk**2)<=acc:
#print("迭代 %d 次"%(k+1))
return x,f(x)
#lambda表达式可以使用上层函数中的变量,这样对于不同的上下文,就是不同的函数
alpha,y=quadraticInterploation(lambda alpha:(f(alpha*pk+x)),0,10,0.001)
x=alpha*pk+x
k+=1

使用partan加速的最速下降法

def partan(f=f,x0=np.zeros(4),gradient=g,acc=0.001,N=3):
k=0
x=x0
xp1=x0
xp2=x0
while True:
if k>=N and k%3==0:
pk=x-xp2
else:
gk=gradient(x)
pk=-1*gk
if np.sum(pk**2)<=acc:
#print("迭代 %d 次"%(k+1))
return x,f(x)
#lambda表达式可以使用上层函数中的变量,这样对于不同的上下文,就是不同的函数
alpha,y=quadraticInterploation(lambda alpha:(f(alpha*pk+x)),0,10,0.001)
xp2=xp1
xp1=x
x=alpha*pk+x
k+=1

一维搜索的黄金分割方法

def goldenSegmantation(f,a,b,acc):
x1=a+0.382*(b-a)
x2=b-(x1-a)
R=f(x1);G=f(x2)
#因为浮点数的舍入误差,可能导致a,b的大小逆转
while abs(b-a)>acc and a<=x1<x2<=b:
#print(abs(b-a))
if R>G:
a=x1
x1=x2
R=G
x2=b-(x1-a)
G=f(x2)
else:
b=x2
x2=x1
G=R
x1=a+(b-x2)
R=f(x1)
return (a+b)/2.0,f(((a+b)/2.0))

一维搜索的二次差值方法

def quadraticInterploation(f,a,b,acc):
assert(a<b)
x1=a;x2=(a+b)/2;x3=b
f1=f(x1);f2=f(x2);f3=f(x3)
while True:
c1=(f3-f1)/(x3-x1);c2=((f2-f1)/(x2-x1)-c1)/(x2-x3)
xp=0.5*(x1+x3-c1/c2)
fp=f(xp)
if abs(xp-x2)<acc or not a<=x1<x2<x3<=b:
if fp<f2:
return xp,fp
else:
return x2,f2
if x2<xp:
if f2<fp:
x3=xp;f3=fp
else:
x1=x2;f1=f2
x2=xp;f2=fp
else:
if f2<fp:
x1=xp;f1=fp
else:
x3=x2;f3=f2
x2=xp;f2=fp

测试一维搜索方法

%timeit(goldenSegmantation(lambda x:(x**4-5),-1,1,0.0001))
%timeit(quadraticInterploation(lambda x:(x**4-5),-1,1,0.00001))
%timeit(goldenSegmantation(lambda x:(x**2-5*x+6),-10,10,0.00000005))
%timeit(quadraticInterploation(lambda x:(x**2-5*x+6),-10,10,0.000001))
%timeit(goldenSegmantation(math.sin,-1*math.pi,0,0.000001))
%timeit(quadraticInterploation(math.sin,-1*math.pi,0,0.0000001))
11.3 µs ± 58.8 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
3.09 µs ± 18.5 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
12.5 µs ± 47.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
5.44 µs ± 27.1 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
7.97 µs ± 33.1 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
2.05 µs ± 19.5 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

结果分析

对于不同的目标函数,二次插值的速度均大于黄金分割方法

测试高维搜索方法

%timeit steepestDescent()
%timeit partan()
%timeit conjugate_direction()
%timeit newton()
%timeit quasi_newton()
236 µs ± 2.39 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
297 µs ± 2.39 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
197 µs ± 1.49 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
125 µs ± 276 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
224 µs ± 1.28 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

结果分析

从结果看出来,partan加速方法相比最速下降方法并没有什么优势,主要原因是目标函数太简单,迭代次数太少

拟牛顿法相比最速下降法也没有什么优势,我想也是基于同样的原因

常见优化算法统一框架下的实现:最速下降法,partan加速的最速下降法,共轭梯度法,牛顿法,拟牛顿法,黄金分割法,二次插值法的更多相关文章

  1. 最优化算法——常见优化算法分类及总结

    之前做特征选择,实现过基于群智能算法进行最优化的搜索,看过一些群智能优化算法的论文,在此做一下总结. 在生活或者工作中存在各种各样的最优化问题,比如每个企业和个人都要考虑的一个问题"在一定成 ...

  2. 优化深度神经网络(二)优化算法 SGD Momentum RMSprop Adam

    Coursera吴恩达<优化深度神经网络>课程笔记(2)-- 优化算法 深度机器学习中的batch的大小 深度机器学习中的batch的大小对学习效果有何影响? 1. Mini-batch ...

  3. zz:一个框架看懂优化算法之异同 SGD/AdaGrad/Adam

    首先定义:待优化参数:  ,目标函数: ,初始学习率 . 而后,开始进行迭代优化.在每个epoch  : 计算目标函数关于当前参数的梯度:  根据历史梯度计算一阶动量和二阶动量:, 计算当前时刻的下降 ...

  4. 一个框架看懂优化算法之异同 SGD/AdaGrad/Adam

    Adam那么棒,为什么还对SGD念念不忘 (1) —— 一个框架看懂优化算法 机器学习界有一群炼丹师,他们每天的日常是: 拿来药材(数据),架起八卦炉(模型),点着六味真火(优化算法),就摇着蒲扇等着 ...

  5. Adam那么棒,为什么还对SGD念念不忘 (1) —— 一个框架看懂优化算法

    机器学习界有一群炼丹师,他们每天的日常是: 拿来药材(数据),架起八卦炉(模型),点着六味真火(优化算法),就摇着蒲扇等着丹药出炉了. 不过,当过厨子的都知道,同样的食材,同样的菜谱,但火候不一样了, ...

  6. 解析基于keras深度学习框架下yolov3的算法

    一.前言 由于前一段时间以及实现了基于keras深度学习框架下yolov3的算法,本来想趁着余热将自己的心得体会进行总结,但由于前几天有点事就没有完成计划,现在趁午休时间整理一下. 二.Keras框架 ...

  7. [Algorithm] 群体智能优化算法之粒子群优化算法

    同进化算法(见博客<[Evolutionary Algorithm] 进化算法简介>,进化算法是受生物进化机制启发而产生的一系列算法)和人工神经网络算法(Neural Networks,简 ...

  8. 深度学习必备:随机梯度下降(SGD)优化算法及可视化

    补充在前:实际上在我使用LSTM为流量基线建模时候,发现有效的激活函数是elu.relu.linear.prelu.leaky_relu.softplus,对应的梯度算法是adam.mom.rmspr ...

  9. 【优化算法】遗传算法GA求解混合流水车间调度问题(附C++代码)

    00 前言 各位读者大家好,好久没有介绍算法的推文了,感觉愧对了读者们热爱学习的心灵.于是,今天我们带来了一个神奇的优化算法--遗传算法! 它的优点包括但不限于: 遗传算法对所求解的优化问题没有太多的 ...

随机推荐

  1. web自动化测试从入门到持续集成(selenium webdriver)

    在很多刚学习自动化的可能会认为我只需要会运用selenium,我只需要在一个编辑器中实用selenium +java编写了一些脚本那么就会自动化了,是真的吗?答案肯定是假的.自动化肯定是需要做到真的完 ...

  2. JS模拟实现封装的三种方法

      前  言  继承是使用一个子类继承另一个父类,那么子类可以自动拥有父类中的所有属性和方法,这个过程叫做继承!  JS中有很多实现继承的方法,今天我给大家介绍其中的三种吧. 1.在 Object类上 ...

  3. 学习Identity Server 4的预备知识

    我要使用asp.net core 2.0 web api 搭建一个基础框架并立即应用于一个实际的项目中去. 这里需要使用identity server 4 做单点登陆. 下面就简单学习一下相关的预备知 ...

  4. struts2国际化相关问题

    国际化资源文件的方式: Action范围的 包范围的 临时的 全局的(推荐) 一.配置全局的国际化资源文件 1.在类路径下,创建国际化资源文件 baseName.properties baseName ...

  5. swift 之 mustache模板引擎

    用法: Variable Tags {{name}} 用来渲染值name datas: let data = ["value": "test"] ------- ...

  6. CSS3新增伪类汇总

    :root 选择文档的根元素,等同于 html 元素 :empty 选择没有子元素的元素 :target 选取当前活动的目标元素 :not(selector) 选择除 selector 元素意外的元素 ...

  7. java 随记

    后台开发的过程中积累的关于java的杂记 架构 SSH框架 为什么要分层? 因为分层使代码变得清晰,容易写也容易阅读,更重要的是让代码扩展性更好,层与层之间的改动不会互相影响 各层的分工 dao--与 ...

  8. Javaweb项目开发的前后端解耦的必要性

    JavaWeb项目为何我们要放弃jsp?为何要前后端解耦?为何要动静分离? 使用jsp的痛点: 1.jsp上动态资源和静态资源全部耦合在一起,服务器压力大,因为服务器会收到各种静态资源的http请求, ...

  9. hdu 1011 Starship Troopers(树形DP入门)

    Starship Troopers Time Limit: 10000/5000 MS (Java/Others)    Memory Limit: 65536/32768 K (Java/Other ...

  10. awk详解 数组

    第1章 awk命令基础 1.1 awk命令执行过程 1.如果BEGIN 区块存在,awk执行它指定的动作. 2.awk从输入文件中读取一行,称为一条输入记录.如果输入文件省略,将从标准输入读取 3.a ...