【Unity】图形渲染瓶颈与批处理优化

图形渲染

工作方式

显卡的工作方式并非连续的,一般分三步。

  1. 上传更新渲染数据至显存
  2. 设置显卡的渲染管线状态
  3. 启动绘制并等待绘制结果

性能瓶颈

由于显卡是大规模并行计算,绘制几个或几千个三角面在速度上基本没有区别,这时候瓶颈就容易出现在工作方式中第一第二点上。

  1. 内存到显存的传输是有代价的

    如果对比过 Unity 的作业系统就会发现一点,对应一些数据量大但计算量小的任务,使用计算着色器的速度反而比作业系统要慢的多。

    原因就是因为计算量小导致显卡的强大计算能力没法体现,结果时间全花在了大量数据的传输上,不如直接用 CPU 就地解决。

  2. 处理器与显卡的沟通是有代价的

    此时数据已经传输到了显存中,但具体使用那些数据,哪种绘制方式,这些都需要进行设置,这就需要 CPU 与 GPU 进行沟通。

    同第一点,这是两种不同的硬件,交流本就有延迟,再加上 GPU 因此切换内部状态的时间,那就更长了。

优化方案

由此可见我们应在两个方向上进行优化

  1. 减少显存中数据的更新频率
  2. 减少显卡中工作状态的切换

诸如网格,纹理,着色器,常量缓冲区等这些都是需要存储在显存中的,因此应仅可能减少其内容的修改。

如果可以,尽可能多物体共用这些资源,这不仅仅可以减少缓存的使用,还可以减少调整渲染状态的次数。

具体例子

最原始的渲染方案,我们可能每个物体都要单独渲染一次,即使不考虑显存大小的问题,我们每次也都要重新设置渲染用的目标数据和状态,还没正式让 GPU 工作,仅设置 GPU 的环境就花费了很多时间。

然后当我们正式启动 GPU,结果因为单个物体的计算量较小,GPU 瞬间就好了,这时又要进入缓慢的准备阶段,让 GPU 一直空等着。

这很类似早期的单道批处理操作系统的问题,IO 时间与处理速度不匹配,所以我们要增加处理速度的时间并减少 IO 的次数。

比如我们可以合并多个物体的渲染数据,并确保他们可以使用同样的着色器和渲染管线状态,从而将它们变成一个完整单一的大型物体。

此时渲染这一个物体依然可以变相实现渲染多个物体的效果,但每个物体间不再有准备时间,GPU 也能跑更长的时间了,CPU 不再需要动不动停下来指挥 GPU 做事,并行能力也大幅提高。

渲染批处理

渲染批处理即是上述优化方案的具体实现。它将有共通属性的多个物体看成同一组甚至同一个,以批为单位进行渲染。

在 Unity 中渲染模型需要两种图形资源,材质+网格:

  • 材质包含了常量缓冲区,渲染状态,着色器的数据。
  • 网格包含了顶点、索引缓冲区的数据。

物体能被一起渲染,说明他们用到的数据都一样,也因此如果希望物体能被识别为同一批,只要确保他们用到的材质和网格一样即可。

材质的共用

  • 使用纹理图集功能

    对于因纹理不同而导致材质差异的情况,可以尝试用该功能将纹理合并成一个,接着只要在网格的 UV 上进行特殊处理即可保留原功能的同时合并材质。

    因为 UI 和 Sprite 是自动生成的网格,所以可以自动兼容 Unity 中的图集设置,简单设置就可轻松获得性能优势。

  • 使用 GPU 实例化功能

    GPU 实例化是一种特殊的渲染方式,由底层图形引擎提供,可以实现一次显卡调用但自动保留环境的同时多次绘制同一网格,同时会在着色器阶段传递这些网格的绘制编号。

    利用这些编号做区分我们便可为不同的网格采取不同的绘制数据,从而实现一次调用却好像使用了不同材质多次绘制的效果。

网格的共用

  • 静态批处理

    提前自动将选择的多个网格合并成一个“大网格”,所有原本的模型将共享该网格中的顶点索引缓冲区等,这样绘制时只要直接绘制一次这个大网格即可。

    当然该网格的渲染也不一定是完全正向的,因为共用一个大网格也意味着没法进行剔除等操作,过多看不见的三角面被渲染,可能导致得不偿失。

  • 动态批处理

    和静态批处理的原理一样,但区别是实时的,所以必须每帧都要考虑重新生成用于批处理的大网格,也因此存在性能问题:生成网格的消耗可能比渲染批处理节省的开销要大。

    因此只能用于小型网格的合并,主要还是用于对过去旧低端设备进行优化,目前并不是太推荐。

【Unity】图形渲染瓶颈与批处理优化的更多相关文章

  1. Unity中的批处理优化与GPU Instancing【转】

    我们都希望能够在场景中投入一百万个物体,不幸的是,渲染和管理大量的游戏对象是以牺牲CPU和GPU性能为代价的,因为有太多Draw Call的问题,最后我们必须找到其他的解决方案.在本文中,我们将讨论两 ...

  2. Unity中的GC以及优化

    [简介] 常见的 Unity GC 知识点总结出来的思维导图 Unity 官方文档,正巧在博客园发现了已经有位大神(zblade)把原文翻译出来了,而且质量很高~,译文地址 在这里.下面我就可耻地把译 ...

  3. 面向 Unity* 软件和虚拟现实的优化:运行时生成内容

    优化游戏以实现高性能一直是游戏开发过程中的一个重要因素.虽然开发人员一直尝试将硬件推向极致,但当移动游戏成为主流时,优化技术变得尤为突出.Unity* 软件.Unreal* 等常见引擎最初都是面向 P ...

  4. 浅谈Unity中的GC以及优化

    介绍: 在游戏运行的时候,数据主要存储在内存中,当游戏的数据不在需要的时候,存储当前数据的内存就可以被回收再次使用.内存垃圾是指当前废弃数据所占用的内存,垃圾回收(GC)是指将废弃的内存重新回收再次使 ...

  5. Unity技术支持团队性能优化经验分享

    https://mp.weixin.qq.com/s?__biz=MzU5MjQ1NTEwOA==&mid=2247490321&idx=1&sn=f9f34407ee5c5d ...

  6. 【Unity游戏开发】性能优化之在真机上开启DeepProfile与踩坑

    一.引子 最近马三入职了新公司,平时除了负责编辑器开发之外还要做一些游戏性能优化方面的工作.在这里首先给大家安利一下Unity官方的性能测试分析工具URP ,这个工具目前是免费,测试的过程中也不需要接 ...

  7. Unity教程之-UGUI一个优化效率小技巧

    无意间发现了一个小技巧.如下图所示,可以发现UGUI的Image组件的RaycastTarget勾选以后会消耗一些效率,为了节省效率就不要勾选它了,不仅Image组件Text组件也有这样的问题. 一般 ...

  8. unity postprocessing stack v2的优化

    今天做到33ms了 从45ms 到33ms 后处理占20ms 优化后8ms 去掉两次blit fast mode layer 去掉UI camera 用overlay 层级用sortingorder ...

  9. 【Unity笔记】常用的优化小技巧

    一.当通过GetComponent获取一个组件时,不在Update中每帧进行查找,可在Start中查找一次并用一个私有变量去保存这个组件. public class Test : MonoBehavi ...

  10. 浅谈Unity的渲染优化(1): 性能分析和瓶颈判断(上篇)

    http://www.taidous.com/article-667-1.html 前言 首先,这个系列文章做个大致的介绍,题目"浅谈Unity",因为公司和国内大部分3D手游开发 ...

随机推荐

  1. 欢迎 PaliGemma 2 – 来自 Google 的新视觉语言模型

    我们很高兴迎来 Google 全新的视觉语言模型 PaliGemma 2,这是 PaliGemma 的一个新版本.与其前代产品一样,PaliGemma 2 使用强大的 SigLIP 进行视觉处理,但在 ...

  2. kubectl get deploy

    for i in `kubectl get deployments.apps -n nvpc-apps-02|grep -v NAME|awk '{print $1}'`; do kubectl ge ...

  3. java -jar命令运行jar包时指定外部依赖jar包

    你们都知道一个java应用项目能够打包成一个jar,固然你必须指定一个拥有main函数的main class做为你这个jar包的程序入口.具体的方法是修改jar包内目录META-INF下的MANIFE ...

  4. @Builder 注解的简单使用

    1.导语(可跳过) Java小白一枚,研读公司代码.发现实体类上加了@Builder.@NoArgsConstructor和@AllArgsConstructor.话不多说,上代码 2.实体类代码@D ...

  5. 解决容器Docker内部启动计划任务crontab不生效不执行的问题

    docker使用centos7镜像 首先编辑crond,注释#session    required   pam_loginuid.so: vi /etc/pam.d/crond 然后重启crond服 ...

  6. Qt编写物联网管理平台49-设备模拟工具

    一.前言 本系统专门配备了设备模拟工具,用来在没有外接真实设备的时候,模拟modbus协议数据,支持多个设备,支持串口和网络方式,可切换正常数据和报警数据,反应到主程序上.对应主程序中两种端口,一种是 ...

  7. Python 潮流周刊#83:uv 的使用技巧(摘要)

    本周刊由 Python猫 出品,精心筛选国内外的 250+ 信息源,为你挑选最值得分享的文章.教程.开源项目.软件工具.播客和视频.热门话题等内容.愿景:帮助所有读者精进 Python 技术,并增长职 ...

  8. .NET 9 new features-分布式追踪支持、HTTP/3 改进以及更好的容器镜像支持

    .NET 9 针对云原生开发进行了显著优化,重点改进了分布式追踪.HTTP/3 支持和容器镜像优化等方面. 这些特性极大地提升了 .NET 在现代云原生应用中的适配性与开发效率. 1. 设计原理 1. ...

  9. OpenMMLab AI实战营 第二课笔记 计算机视觉之图像分类算法基础

    OpenMMLab AI实战营 第二课笔记 目录 OpenMMLab AI实战营 第二课笔记 图像分类与基础视觉基础 1.图像分类问题 1.1 问题的数学表示 1.2 视觉任务的难点 1.2.1 超越 ...

  10. 超实用 JMeter BeanShell Sampler 教程

    超实用 JMeter BeanShell Sampler 教程 宝子们,今天咱继续深挖 JMeter 里超厉害的 BeanShell Sampler,这次多来点实际工作中的例子,让你彻底搞懂它! 一. ...