Low-level Thinking in High-level Shading Languages

因为要反汇编shader代码，所以google了数学函数_sat的知识，发现了一些高级着色语言的优化相关的问题。Low-level Thinking in High-level Shading Languages,地址如下 http://www.luluathena.com/?p=1633
大意是汇编写shader，代码需要自己来优化。一直都是写HLSL这样的高级语言，编译器自动优化，却发现书写的代码会深深影响所生成的汇编效果。依赖编译器优化，总是那么不靠谱，所以懂点儿优化的程序员还是有市场的。

摘个例子1：
(x + 1.0f) * 0.5f所生成的汇编指令是两句，先add，再mul，很直观。而x*0.5f + 0.5f所生成的汇编指令只有一句，mad。这就是PC上编译器不会帮我们做的事情。由于浮点数的运算有误差，有时候编译器在为代码进行优化时，会由于修改了运算的顺序而导致INF和NAN（且不论编译器，甚至我们自己都会导致这种错误）。

考虑 x = 0.2f 时:
sqrt(0.1f * (0.2f - x)) 返回0
sqrt(0.02f - 0.1f * x) 返回 NaN //由于0.02f - 0.1f*0.2f 返回了一个极小的负值，导致开方出错

例子2：

float AlphaThreshold(float alpha, float threshold, float blendRange)

{

    float halfBlendRange = 0.5f*blendRange;

    threshold = threshold*(1.0f + blendRange) - halfBlendRange;

    float opacity = saturate( (alpha - threshold + halfBlendRange)/blendRange );

    return opacity;

}

对应的汇编代码：

mul r0.x, cb0[0].y, l(0.500000)

add r0.y, cb0[0].y, l(1.000000)

mad r0.x, cb0[0].x, r0.y, -r0.x

add r0.x, -r0.x, v0.x

mad r0.x, cb0[0].y, l(0.500000), r0.x

div_sat o0.x, r0.x, cb0[0].y

而这段代码的精简版本：

// scale = 1.0f / blendRange

// offset = 1.0f - (threshold/blendRange + threshold)

float AlphaThreshold(float alpha, float scale, float offset)

{

    return saturate( alpha * scale + offset );

}

对应的汇编就只有一条。

mad_sat o0.x, v0.x, cb0[].x, cb0[].y

专注做产品的程序员不应该考虑太多底层优化的东西，而对于引擎程序员的要求，不论GPU还是CPU编程，都应该Low-level Thinking in High-level Languages

Low-level Thinking in High-level Shading Languages的更多相关文章

设计与实现的简单和经常使用的权限系统(五岁以下儿童):不维护节点的深度level，手工计算level，树形结构
以这种方式.和第三的类似介绍.所不同的是.深度未在数据库中存储节点level,添加和更改时间,护.而是,在程序中,实时去计算的. 至于后面的,依照level升序排序,再迭代全部的节点构造树,与第三篇 ...
loadrunner / socket level data and wininet level data
s loadrunner录制脚本时,此网站证书无效/无法录制到脚本问题解决 http://www.51testing.com/html/64/497364-3569552.html lr录制后空白_l ...
简洁常用权限系统的设计与实现(五):不维护节点的深度level，手动计算level，构造树
这种方式,与第三篇中介绍的类似.不同的是,数据库中不存储节点的深度level,增加和修改时,也不用维护.而是,在程序中,实时去计算的. 至于后面的,按照level升序排序,再迭代所有的节点构造树,与 ...
简洁常用权限系统的设计与实现(六):不维护节点的深度level，手动计算level，构造树 (把一颗无序的树，变成有序的)
本篇介绍的方法,参考了网上的代码.在递归过程中,计算level,是受到了这种方法的启发. CSDN上有篇关于树的算法,目标是把一个无序的树,变成有序的. 我看了下代码,并运行了下,感觉是可行的. 我 ...
[LeetCode] Binary Tree Level Order Traversal II 二叉树层序遍历之二
Given a binary tree, return the bottom-up level order traversal of its nodes' values. (ie, from left ...
[LeetCode] Binary Tree Zigzag Level Order Traversal 二叉树的之字形层序遍历
Given a binary tree, return the zigzag level order traversal of its nodes' values. (ie, from left to ...
[LeetCode] Binary Tree Level Order Traversal 二叉树层序遍历
Given a binary tree, return the level order traversal of its nodes' values. (ie, from left to right, ...
《InsideUE4》-3-GamePlay架构（二）Level和World
UE4深入学习QQ群: 456247757 引言上文谈到Actor和Component的关系,UE利用Actor的概念组成一片游戏对象森林,并利用Component组装扩展Actor的能力,让世界里 ...
【leetcode】Binary Tree Zigzag Level Order Traversal （middle）
Given a binary tree, return the zigzag level order traversal of its nodes' values. (ie, from left to ...

随机推荐

java工具类-邮件发送
mail-1.4.jar package com.huawei.it.citools.mail; import java.util.Date;import java.util.List;import ...
java之JMS
一.简介:JMS即Java消息服务(Java Message Service)应用程序接口,是一个Java平台中关于面向消息中间件(MOM)的API,用于在两个应用程序之间,或分布式系统中发送消息,进 ...
CSS布局模型学习
转自:http://www.cnblogs.com/erliang/p/4092192.html CSS布局模型学习参考链接慕课网:HTML+CSS基础课程知识基础 1. 样式内联嵌入外 ...
NP、NPC、NP-hard问题的定义
NP-hard问题定义:NP-hard问题是这样的问题,只要其中某个问题可以在P时间内解决,那么所有的NP问题就都可以在P时间内解决了.NP-c问题就是NP-hard问题.但注意NP-hard ...
磁盘IO计算
看了篇文章,突然想写点磁盘IO的东西,也算是对磁盘的一点点总结. 以下以理论为主,辅助结合实际情况.不明白这句话的出去. 今年是2018年,目前市场上早已经没有国产的硬盘,以前的长城.易拓早早的被拍死 ...
http中的Content-Type
要学习content-type,必须事先知道它到底是什么,是干什么用的. HTTP协议(RFC2616)采用了请求/响应模型.客户端向服务器发送一个请求,请求头包含请求的方法.URI.协议版本.以及包 ...
修改eclipse 代码字体大小以及文档字体大小
1..点击[window]在弹出的窗口中选择[preferences] 2.在弹出窗口中找到依次点击General(常规)——Apprearance(外观)——Colors and Fonts(颜色和 ...
css 积累1
1.position 取值. 通常的回答是 static.relative.absolute 和 fixed .当然,还有一个极少人了解的 sticky .其实,除此之外, CSS 属性通常还可以设置 ...
zk分布式锁-排它锁简单实现-优化版
package Lock; import java.util.Collection;import java.util.Collections;import java.util.List;import ...
less gradient-vertical 方法的实现
// Vertical gradient using CSS where possible, and base64-encoded SVG for IE9 (enables use of this i ...

Low-level Thinking in High-level Shading Languages

Low-level Thinking in High-level Shading Languages的更多相关文章

随机推荐

热门专题