常见优化算法统一框架下的实现:最速下降法,partan加速的最速下降法,共轭梯度法,牛顿法,拟牛顿法,黄金分割法,二次插值法
常见优化算法实现
这里实现的主要算法有:
一维搜索方法:
黄金分割法
二次差值法
多维搜索算法
最速下降法
partan加速的最速下降法
共轭梯度法
牛顿法
拟牛顿法
使用函数表示一个用于优化的目标,包括其梯度函数和hessian矩阵函数
import numpy as np
import math
#用于测试的一个多元函数的例子
def f(x):
return (x[0]-1)**2+5*(x[1]-5)**2+(x[2]-1)**2+5*(x[3]-5)**2
#f(x)函数的gradient向量计算函数
def g(x):
return np.array([2*(x[0]-1),10*(x[1]-5),2*(x[2]-1),10*(x[3]-5)])
#f(x)函数的hessian矩阵的逆矩阵计算函数
def hi(x=None):
h=[1/2,1/10,1/2,1/10]
return np.diag(h)
拟牛顿法
def quasi_newton(f=f,x0=np.zeros(4),gradient=g,acc=0.001):
k=0
x=x0
xp=None
hpk=None
gpk=None
while True:
gk=gradient(x)
#print(gk)
if np.sum(gk**2)<=acc:
#print("迭代 %d 次"%(k+1))
return x,np.round(f(x),5)
if k==0:
hik=np.eye(x0.shape[0])
else:
dx=x-xp
dg=gk-gpk
temp = (dx-np.dot(hpk,dg)).reshape((-1,1))
hik=hpk + np.dot(temp,temp.transpose())/(np.dot(temp.transpose(),dg.reshape((-1,1))))
#print(hik)
pk=-1*np.dot(hik,gk)
alpha,y=quadraticInterploation(lambda alpha:(f(alpha*pk+x)),0,10,0.001)
#更新变量
x=alpha*pk+x
hpk=hik
xp=x
gpk=gk
k+=1
共轭方向法
def conjugate_direction(f=f,x0=np.zeros(4),gradient=g,acc=0.001):
k=0
x=x0
#设置初值
gpk=x0
ppk=x0
while True:
gk=gradient(x)
#print(gk)
if np.sum(gk**2)<=acc:
#print("迭代 %d 次"%(k+1))
return x,np.round(f(x),5)
if k==0:
pk=-1*gk
else:
betak=np.sum(gk*gk)/np.sum(gpk*gpk)
pk=-1*gk+betak*ppk
#lambda表达式可以使用上层函数中的变量,这样对于不同的上下文,就是不同的函数
alpha,y=quadraticInterploation(lambda alpha:(f(alpha*pk+x)),0,10,0.001)
x=alpha*pk+x
ppk=pk
gpk=gk
k+=1
最速下降法
#最速下降法
def steepestDescent(f=f,x0=np.zeros(4),gradient=g,acc=0.001):
k=0
x=x0
while True:
gk=gradient(x)
pk=-1*gk
if np.sum(gk**2)<=acc:
#print("迭代 %d 次"%(k+1))
return x,f(x)
#lambda表达式可以使用上层函数中的变量,这样对于不同的上下文,就是不同的函数
alpha,y=quadraticInterploation(lambda alpha:(f(alpha*pk+x)),0,10,0.001)
x=alpha*pk+x
k+=1
牛顿法
def newton(f=f,x0=np.zeros(4),gradient=g,hessian=hi,acc=0.001):
k=0
x=x0
while True:
gk=gradient(x)
hik=hessian(x)
pk=-1*np.dot(gk,hik)
if np.sum(gk**2)<=acc:
#print("迭代 %d 次"%(k+1))
return x,f(x)
#lambda表达式可以使用上层函数中的变量,这样对于不同的上下文,就是不同的函数
alpha,y=quadraticInterploation(lambda alpha:(f(alpha*pk+x)),0,10,0.001)
x=alpha*pk+x
k+=1
使用partan加速的最速下降法
def partan(f=f,x0=np.zeros(4),gradient=g,acc=0.001,N=3):
k=0
x=x0
xp1=x0
xp2=x0
while True:
if k>=N and k%3==0:
pk=x-xp2
else:
gk=gradient(x)
pk=-1*gk
if np.sum(pk**2)<=acc:
#print("迭代 %d 次"%(k+1))
return x,f(x)
#lambda表达式可以使用上层函数中的变量,这样对于不同的上下文,就是不同的函数
alpha,y=quadraticInterploation(lambda alpha:(f(alpha*pk+x)),0,10,0.001)
xp2=xp1
xp1=x
x=alpha*pk+x
k+=1
一维搜索的黄金分割方法
def goldenSegmantation(f,a,b,acc):
x1=a+0.382*(b-a)
x2=b-(x1-a)
R=f(x1);G=f(x2)
#因为浮点数的舍入误差,可能导致a,b的大小逆转
while abs(b-a)>acc and a<=x1<x2<=b:
#print(abs(b-a))
if R>G:
a=x1
x1=x2
R=G
x2=b-(x1-a)
G=f(x2)
else:
b=x2
x2=x1
G=R
x1=a+(b-x2)
R=f(x1)
return (a+b)/2.0,f(((a+b)/2.0))
一维搜索的二次差值方法
def quadraticInterploation(f,a,b,acc):
assert(a<b)
x1=a;x2=(a+b)/2;x3=b
f1=f(x1);f2=f(x2);f3=f(x3)
while True:
c1=(f3-f1)/(x3-x1);c2=((f2-f1)/(x2-x1)-c1)/(x2-x3)
xp=0.5*(x1+x3-c1/c2)
fp=f(xp)
if abs(xp-x2)<acc or not a<=x1<x2<x3<=b:
if fp<f2:
return xp,fp
else:
return x2,f2
if x2<xp:
if f2<fp:
x3=xp;f3=fp
else:
x1=x2;f1=f2
x2=xp;f2=fp
else:
if f2<fp:
x1=xp;f1=fp
else:
x3=x2;f3=f2
x2=xp;f2=fp
测试一维搜索方法
%timeit(goldenSegmantation(lambda x:(x**4-5),-1,1,0.0001))
%timeit(quadraticInterploation(lambda x:(x**4-5),-1,1,0.00001))
%timeit(goldenSegmantation(lambda x:(x**2-5*x+6),-10,10,0.00000005))
%timeit(quadraticInterploation(lambda x:(x**2-5*x+6),-10,10,0.000001))
%timeit(goldenSegmantation(math.sin,-1*math.pi,0,0.000001))
%timeit(quadraticInterploation(math.sin,-1*math.pi,0,0.0000001))
11.3 µs ± 58.8 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
3.09 µs ± 18.5 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
12.5 µs ± 47.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
5.44 µs ± 27.1 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
7.97 µs ± 33.1 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
2.05 µs ± 19.5 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
结果分析
对于不同的目标函数,二次插值的速度均大于黄金分割方法
测试高维搜索方法
%timeit steepestDescent()
%timeit partan()
%timeit conjugate_direction()
%timeit newton()
%timeit quasi_newton()
236 µs ± 2.39 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
297 µs ± 2.39 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
197 µs ± 1.49 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
125 µs ± 276 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
224 µs ± 1.28 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
结果分析
从结果看出来,partan加速方法相比最速下降方法并没有什么优势,主要原因是目标函数太简单,迭代次数太少
拟牛顿法相比最速下降法也没有什么优势,我想也是基于同样的原因
常见优化算法统一框架下的实现:最速下降法,partan加速的最速下降法,共轭梯度法,牛顿法,拟牛顿法,黄金分割法,二次插值法的更多相关文章
- 最优化算法——常见优化算法分类及总结
之前做特征选择,实现过基于群智能算法进行最优化的搜索,看过一些群智能优化算法的论文,在此做一下总结. 在生活或者工作中存在各种各样的最优化问题,比如每个企业和个人都要考虑的一个问题"在一定成 ...
- 优化深度神经网络(二)优化算法 SGD Momentum RMSprop Adam
Coursera吴恩达<优化深度神经网络>课程笔记(2)-- 优化算法 深度机器学习中的batch的大小 深度机器学习中的batch的大小对学习效果有何影响? 1. Mini-batch ...
- zz:一个框架看懂优化算法之异同 SGD/AdaGrad/Adam
首先定义:待优化参数: ,目标函数: ,初始学习率 . 而后,开始进行迭代优化.在每个epoch : 计算目标函数关于当前参数的梯度: 根据历史梯度计算一阶动量和二阶动量:, 计算当前时刻的下降 ...
- 一个框架看懂优化算法之异同 SGD/AdaGrad/Adam
Adam那么棒,为什么还对SGD念念不忘 (1) —— 一个框架看懂优化算法 机器学习界有一群炼丹师,他们每天的日常是: 拿来药材(数据),架起八卦炉(模型),点着六味真火(优化算法),就摇着蒲扇等着 ...
- Adam那么棒,为什么还对SGD念念不忘 (1) —— 一个框架看懂优化算法
机器学习界有一群炼丹师,他们每天的日常是: 拿来药材(数据),架起八卦炉(模型),点着六味真火(优化算法),就摇着蒲扇等着丹药出炉了. 不过,当过厨子的都知道,同样的食材,同样的菜谱,但火候不一样了, ...
- 解析基于keras深度学习框架下yolov3的算法
一.前言 由于前一段时间以及实现了基于keras深度学习框架下yolov3的算法,本来想趁着余热将自己的心得体会进行总结,但由于前几天有点事就没有完成计划,现在趁午休时间整理一下. 二.Keras框架 ...
- [Algorithm] 群体智能优化算法之粒子群优化算法
同进化算法(见博客<[Evolutionary Algorithm] 进化算法简介>,进化算法是受生物进化机制启发而产生的一系列算法)和人工神经网络算法(Neural Networks,简 ...
- 深度学习必备:随机梯度下降(SGD)优化算法及可视化
补充在前:实际上在我使用LSTM为流量基线建模时候,发现有效的激活函数是elu.relu.linear.prelu.leaky_relu.softplus,对应的梯度算法是adam.mom.rmspr ...
- 【优化算法】遗传算法GA求解混合流水车间调度问题(附C++代码)
00 前言 各位读者大家好,好久没有介绍算法的推文了,感觉愧对了读者们热爱学习的心灵.于是,今天我们带来了一个神奇的优化算法--遗传算法! 它的优点包括但不限于: 遗传算法对所求解的优化问题没有太多的 ...
随机推荐
- Philosophy is systematic reflective thinking on life.
1. perfect coding 逻辑思维.抽象思维.发散思维 knowledge application design 2. Java Object: h ...
- 吾八哥学Python(三):了解Python基础语法(上)
学习一门开发语言首先当然是要熟悉它的语法了,Python的语法还算是比较简单的,这里从基础的开始了解一下. 标识符1.第一个字符必须是字母表中字母或下划线'_'.2.标识符的其他的部分有字母.数字和下 ...
- codeforces 258D
D. Little Elephant and Broken Sorting time limit per test 2 seconds memory limit per test 256 megaby ...
- js 关于性能的数据存储
1.JavaScript中四种基本数据存取位置:字面量,本地变量,数组元素,对象成员.(四个都是存在于内存中) 一般来说:[字面量,局部变量]运行速度>[数组,对象成员] 2.内部属性包含了一个 ...
- 跨站请求伪造(CSRF)-简述
跨站请求伪造(CSRF)-简述 跨站请求伪造(英语:Cross-site request forgery),也被称为 one-click attack 或者 session riding,通常缩写为 ...
- Windows搭建wnmp
1. 下载安装nginx: nginx官网下载地址:http://nginx.org/en/download.html 下载任一版本(我下载的是stable1.12.1版本)解压到D:\wnmp\ng ...
- js判断元素滑动方向(上下左右)移动端
每天学习一点点. 1 var startx, starty; //获得角度 function getAngle(angx, angy) { return Math.atan2(angy, angx) ...
- Python学习第一周
一.我的第一个程序 print("Hello word!") 所以说python是一款非常简洁的语言,不像c,c++等等写一个简单的小程序还要调用一堆库.另外,python 3的版 ...
- Elasticsearch集群调优
系统调优 禁用swap 使用swapoff命令可以暂时关闭swap.永久关闭需要编辑/etc/fstab,注释掉swap设备的挂载项. swapoff -a 如果完全关闭swap不可行,可以试着降低s ...
- 节点遍历 element traversal
任何一个node节点都可以作为遍历的根(traversal root),然后遍历该节点本身以及后代元素,不能遍历祖先或者兄弟元素,方向可以反转 <div id=”div1”> < ...