前言

随着Vulkan的普及，OpenGL已经在被慢慢淘汰，更轻的API调用可以节省不少性能，尤其是在移动平台上，可以减少CPU开销，进而减少功耗。看起来很完美，但是问题是目前移动平台Vulkan驱动存在很多兼容性问题，大家主流的做法都是通过白名单的方式去开Vulkan，所以目前我们还是要继续以OpenGL为主。此文的目的是笔者在优化OpenGL的时候积累的一些经验，因为使用的引擎是UE4，所以这里的优化是以UE4展开的，当然大部分优化都是通用的。

优化

在诸多API中，耗时比较高的有如下这些

设置texture
设置buffer
设置uniform、uniform buffer
设置program
更新texture
更新buffer
编译shader

其它API也有开销，但是不是特别明显或者尽量避免即可（比如设置render target），可以针对性做些优化，一般状态缓存就能比较好的解决问题。

因为移动平台目前主流机器都是TBDR构架，不同平台有自己的减少overdraw的策略，比如高通的LRZ、ARM的FPK以及PowerVR的HSR技术。所以我们排序可以以渲染状态为主来排序，当然老的机器上因为实现不好，可能还是按距离排序能减少更多overdraw。接下来我们针对上面提到的开销大的API针对性做优化。

设置texture

尽量Pack纹理通道，比如Normal使用两个通道
使用Atlas合并贴图
使用Texture2DArray合并贴图
将通用的纹理固定到特定slot上，比如shadow map，reflection texture，cluster shading 相关buffer等

SHADER_PARAMETER_TEXTURE_EX(Texture2D, DirectionalLightShadowTexture, 3)

UE每个DC设置完后会把没用到的texture置成None，这样是为了解决某些驱动的问题，可以优化，太过于保守了。

设置Buffer

相关性比较强的buffer尽量放到一起，比如normal和tangent
使用大buffer+offset的方式管理buffer，这个在后面更新buffer会详细讲解

设置uniform、unform buffer

在4.21之前，ES31下面是完全使用uniform buffer，从4.21之后可以使用emulated uniform buffer，这个东西就是你上层设置更新还是使用的uniform buffer的接口，但是实际上底层用的是uniform。按官方的说法是可以节省大量的内存并且会提升性能

但是实际上我们测试下来开销还是很高，因为设置的uniform数量会变很多，那么有没有更好的优化方式呢？当然是有的，既然是想省内存和性能，那么我们可以使用混合的方式，让uniform和uniform buffer共存使用。哪些适合用uniform buffer呢，像View、DirectionalLight、Shadow这种per frame或者multi frame的就适合，因为数量少，但是像Primitive这种数量特别大的就不适合。

另外UE本身实现的emulated uniform buffer因为在使用的时候并没有把数据完全Pack起来，这个地方也可以在编译期将它们pack到一起并记录下来运行时拷贝到对应的offset处。

优化前

优化后

#define View_IndirectLightingCacheShowFlag (pc0_h[11].x)

#define View_ReflectionEnvironmentRoughnessMixingScaleBiasAndLargestWeight (pc0_h[10].xyz)

#define View_HighResolutionReflectionCubemapMaxMip (pc0_h[9].x)

#define View_ReflectionCubemapMaxMip (pc0_h[8].x)

#define View_SkyLightColor (pc0_h[7].xyzw)

#define View_NormalCurvatureToRoughnessScaleBias (pc0_h[6].xyz)

#define View_IndirectLightingColorScale (pc0_h[5].xyz)

#define View_CullingSign (pc0_h[4].x)

#define View_PreExposure (pc0_h[3].x)

#define View_ViewSizeAndInvSize (pc0_h[2].xyzw)

#define View_ViewRectMin (pc0_h[1].xyzw)

#define View_PreViewTranslation (pc0_h[0].xyz)

uniform highp vec4 pc0_h[12];

layout(std140) uniform pb0

{

vec4 Padding0[76];

　highp vec3 View_PreViewTranslation;

float PaddingF1228_0;

vec4 Padding1228[63];

vec4 View_ViewRectMin;

highp vec4 View_ViewSizeAndInvSize;

vec4 Padding2272[4];

float PaddingB2272_0;

highp float View_PreExposure;

float PaddingF2344_0;

float PaddingF2344_1;

vec4 Padding2344[6];

float PaddingB2344_0;

float PaddingB2344_1;

float PaddingB2344_2;

highp float View_CullingSign;

vec4 Padding2464[13];

highp vec3 View_IndirectLightingColorScale;

float PaddingF2684_0;

vec4 Padding2684[54];

highp float View_IndirectLightingCacheShowFlag;

} View;

#define Primitive_LightingChannelMask (pc2_u[0].x)

#define Primitive_UseSingleSampleShadowFromStationaryLights (pc2_h[1].x)

#define Primitive_InvNonUniformScaleAndDeterminantSign (pc2_h[0].xyzw)

uniform uvec4 pc2_u[1];

uniform highp vec4 pc2_h[3];

#define Primitive_PrimaryPrecomputedShadowMaskValue (pc2_h[1].z)

#define Primitive_LightingChannelMask (floatBitsToUint(pc2_h[1].y))

#define Primitive_UseSingleSampleShadowFromStationaryLights (pc2_h[1].x)

#define Primitive_InvNonUniformScaleAndDeterminantSign (pc2_h[0].xyzw)

uniform highp vec4 pc2_h[2];

可以看到View使用了uniform buffer，而Primitve还是使用uniform，但是变量数量从4个vec4减少到了两个vec4。

设置Program

尽量减少program的数量，比如一些简单的宏可以通过?运算符之类来避免，另外是通过uniform的方式来代替宏，当然这个需要评估，因为可能会造成register spilling以及降低效率。

更新纹理

在开启了texture streaming之后并且纹理数量过多的情况下会导致纹理更新的消耗比较大，可以尝试以下优化：

UE本身使用了PBO来做纹理更新，这个在移动平台上没必要的，还额外多了一次上传PBO的开销。
另外在开启RHI情况下会有一次额外的从Render到RHI的纹理数据拷贝，这个也可以优化掉。
OpenGL本身支持multi context，可以单独起一个线程来做纹理的上传。

更新Buffer

如果你的buffer数量很多另外又需要频率的更新，这个时候在一些稍微老些的机器上（888及以下机器）很容易遇到更新buffer的过高耗时和卡顿，我们在之前的文章里面有写过。

只不过当时的文章比较久了，后面又有新的实现，现在是除了UAV之外的所有buffer都可以使用大buffer+offset方式访问内存，这个给RHI减少10%~20%的开销。

glDrawRangeElements、glDrawElements 中有start index
texture buffer glTexBufferRangeEXT 支持offset,这个主要是ISM、HISM中的instance数据会用到。

Shader编译

Shader编译是很耗时的操作，目前大家常见的做法就是提前收集好PSO并预热，但是很难覆盖完整，如果直接在RHI线程编译会导致卡顿，这个时候也可以复用GL的多context机制进行异步编译。但是这样会引入闪烁，需要去做平衡。

总结

上面列了一些OpengGL开销较大的函数并针对性做了优化，其它API也可以通过cache机器等来做优化，如果按照上面的思路都优化完成，相信你的GL性能一定会有不错的提升以及更低的功耗。

参考

OpenGL RHI优化的更多相关文章

iOS 中OpenGL ES 优化笔记 1
1,避免同步和Flushing操作 OpenGL ES的命令执行通常是在command buffer中积累一定量的命令后,再做批处理执行,这样效率会更高:但是一些OpenGL ES命令必须flush ...
3D Computer Grapihcs Using OpenGL - 13 优化矩阵
上节说过矩阵是可以结合的,而且相乘是按照和应用顺序相反的顺序进行的.我们之前初始化translationMatrix和rotationMatrix的时候,第一个参数都是使用的一个初始矩阵 glm::m ...
Mali GPU OpenGL ES 应用性能优化--基本方法
1. 经常使用优化工具 watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvTXlBcnJvdw==/font/5a6L5L2T/fontsize/400/fil ...
opengl performance optimization
OpenGL 性能优化作者: Yang Jian (jyang@cad.zju.edu.cn) 日期: 2009-05-04 本文从硬件体系结构.状态机.光照.纹理.顶点数组.LOD.Cull等方面 ...
开源免费跨平台opengl opencv webgl gtk blender, opengl贴图程序
三维图形的这是opengl的强项,大型3D游戏都会把它作为首选.图像处理,是opencv的锁定的目标,大多都是C的api,也有少部分是C++的,工业图像表现,图像识别,都会考虑opencv的.webg ...
UE4 RHI与Render模块简解
UE4中的RHI指的是Render hardware interface,作用像Ogre里的RenderSystem,针对Dx11,Dx12,Opengl等等平台抽象出相同的接口,我们能方便能使用相同 ...
OpenGL 资源汇编
本文收集和汇总了 OpenGL 的文档.教程和在线书籍,供学习和开发者參考. OPENGL开发教程:http://www.linuxgraphics.cn/opengl/index.html Open ...
cocos2d-html5 中的性能优化
游戏开发中,难免会遇到性能瓶颈.图片一多,渲染批次就会直线上升,任何动画都会变得闪动. OpenGL ES优化的问题,主要考虑两个方面:内存存储和运行速度. 2D游戏中的最占内存的就是图片资源,一张图 ...
【Mood-12】Android开发相关书籍推荐
新年伊始,找到Android进阶干货若干,2015拜读. 1.Android应用UI设计模式目前,谷歌Android操作系统在移动市场中风头正劲,并且未来发展势不可挡.<Android应用UI ...
Android大放送干：书籍、过程、工具等各种全
完全干燥分享,本文收集Android制定必要的书籍.过程.具.新闻和杂志各种资源.它们能让你在Android开发之旅的各个阶段都受益. 入门 <Learning Android(中文版)> ...

随机推荐

创绘-AI一键小说转漫画视频
创绘-AI一键小说转漫画视频创绘简介一键智能AI推理提示词,自动关联上下文,画面匹配度更高一键批量绘图,同时支持本地和云端模式(没有显卡也能畅享绘图) 一键导出剪映草稿,自动生成关键帧,快速图文 ...
买二手NVIDIA网卡被坑记录：某宝的咸鱼二手交易网站上购入NVIDIA Mellanox ConnectX-3 网卡居然不支持Windows 11操作系统 —— 老二手40Gbps的NVIDIA网卡已经不被新操作系统支持
原本是打算去大连的人工智能计算中心去做技术负责人的,不过考虑到工作性质再考虑到自己的一些现实情况也就放弃了这个职位(比较在大连理工大学的博士学位还没有读下来,还是有所牵挂的).同时,由于自己已经退出了 ...
《Python数据可视化之matplotlib实践》源码第一篇入门第一章
最近手上有需要用matplotlib画图的活,在网上淘了本实践书,发现没有代码,于是手敲了一遍,mark下. 第一篇第一章图1.1 import matplotlib.pyplot as p ...
代码随想录Day11
150. 逆波兰表达式求值给你一个字符串数组 tokens ,表示一个根据逆波兰表示法表示的算术表达式. 请你计算该表达式.返回一个表示表达式值的整数. 注意: 有效的算符为 '+'.'-'.' ...
Buckingham-Reiner 方程和 Darby-Melson 经验方程
由 Roni, et al. (2018), Woolley, et al. (2014), Yang, et al. (2017) 整理人便便的物理性质数据如下: 性质值密度 \((\text{ ...
关于如何解决IDEA中同一个src下多个类中之一运行时自动报错其他类中的问题导致想要运行的类无法正常运行的问题的解决思路
关于如何解决IDEA中同一个src下多个类中之一运行时自动报错其他类中的问题导致想要运行的类无法正常运行的问题的解决思路 WrongFirst: 我准备了一个正常类BG和一个有错误的类HelloWor ...
wiz 为知笔记服务器 docker 迁移爬坑指北
本文主要是介绍 wiz 为知笔记服务器 docker 从旧服务器迁移到新服务器的步骤以及问题排查. 旧服务器升级 wiz docker 目的:保持和新服务器拉取的镜像版本一致. 官方只留了 wiz d ...
基于Material Design风格开源的Avalonia UI控件库
前言今天大姚给大家分享一款基于Material Design风格开源.免费(MIT License)的Avalonia UI控件库:Material.Avalonia. 当前项目还处于alpha阶段 ...
安装vsftp服务器的时候遇到的问题
安装vsftp服务器的时候遇到的问题环境说明: 系统:阿里云centos7 面板:宝塔面板问题描述: 在centos7中安装VSFTP的时候,使用命令行,ftp 然后输入用户名和密码,登陆之后,p ...
Vue配置代理(devServer)解决跨域问题
1.作用: Vue官方文档的解释是: 如果你的前端应用和后端 API 服务器没有运行在同一个主机上,你需要在开发环境下将 API 请求代理到 API 服务器.这个问题可以通过 vue.config.j ...

OpenGL RHI优化

前言

优化