深入理解计算机系统_3e 第五章家庭作业 CS:APP3e chapter 5 homework

**5.13**

B. 由浮点数加法的延迟，CPE的下界应该是3。

C. 由整数加法的延迟，CPE的下界应该是1.

D. 由A中的数据流图，虽然浮点数乘法需要5个周期，但是它没有“数据依赖”，也就是说，每次循环时的乘法不需要依赖上一次乘法的结果，可以各自独立进行。但是加法是依赖于上一次的结果的（sum = sum + 乘法结果），所以该循环的“关键路径”是加法这条链。而浮点数加法的延迟为3个周期，所以CPE为3.00。

5.14

A. 由5.13中分析的，关键路径是一个加法，而整数加法的延迟为1个周期，所以CPE的下界为1。

更新：题意弄错，不是只分析6*1整数运算，跳跳熊12138指出，已更正。

下面是跳跳熊12138给的答案：

本题的代码有n（数据规模）次加运算和乘运算。cpe最低的情况是加的功能功能单元和乘的功能单元全都处于满流水的状态，此时加和乘都达到吞吐量下界。对于整数运算，加法的吞吐量下界为0.5，乘法的吞吐量下界为1.0，所以cpe=max{0.5,1.0}；对于浮点数运算，加法的吞吐量下界是1.0，乘法的吞吐量下界是0.5，所以cpe=max{1.0,0.5}=1.0。综上，cpe的下界是1.0。

B. “6 * 1 loop unrolling”只减少了循环的次数（所以整数的CPE下降了，书上把这个称为“overhead”），并没有减少内存读写的次数和流水线的发生，所以浮点数运算还是不能突破“关键路径”的CPE下界。

5.15

/* 6 * 6 loop unrolling */

/*省略*/

data_t sum1 = (data_t) 0;

data_t sum2 = (data_t) 0;

data_t sum3 = (data_t) 0;

data_t sum4 = (data_t) 0;

data_t sum5 = (data_t) 0;

for(i = 0; i < length; i += 6)

{

  sum1 = sum1 + udata[i] * vdata[i];	/* 相互独立，可以流水线 */

  sum2 = sum2 + udata[i+1] * vdata[i+1];

  sum3 = sum3 + udata[i+2] * vdata[i+2];

  sum4 = sum4 + udata[i+3] * vdata[i+3];

  sum5 = sum5 + udata[i+4] * vdata[i+4];

  sum6 = sum6 + udata[i+5] * vdata[i+5];

}

for(; i < length; ++i)

{

  sum1 = sum1 + udata[i] * vdata[i];

}

*dest = sum1 + sum2 + sum3 + sum4 + sum5 + sum6;

虽然此时可以流水线，但是浮点数加法的单元的Issue time为1个周期，而Capacity也为1，所以最多每个时钟周期完成I/C = 1个加法操作，即此时CPE的下界为1。

5.16

/* 6 * 1a loop unrolling */

/*省略*/

data_t sum1 = (data_t) 0;

data_t sum2 = (data_t) 0;

data_t sum3 = (data_t) 0;

data_t sum4 = (data_t) 0;

data_t sum5 = (data_t) 0;

for(i = 0; i < length; i += 6)

{

  sum = sum + (udata[i] * vdata[i] + udata[i+1] * vdata[i+1] + udata[i+2] * vdata[i+2] + udata[i+3] * vdata[i+3] + udata[i+4] * vdata[i+4] + udata[i+5] * vdata[i+5]);

}

for(; i < length; ++i)

{

  sum = sum + udata[i] * vdata[i];

}

*dest = sum;

5.17

#include <limits.h>

#define K sizeof(unsigned long)

void *word_memset(void *s, int c, size_t n)

{

  if (n < K)

  {

  	size_t cnt = 0;

  	unsigned char *schar = s;

  	while (cnt < n)

  	{

  		*schar++ = (unsigned char)c;

  		cnt++;

  	}

  }

  else

  {

  	  unsigned long word = 0;

      for (int i = 0; i < K; ++i)

      {

  	    word <<= K*CHAR_BIT;

  	    word += (unsigned char)c;

      }

      size_t cnt = 0;

      unsigned long *slong = s;

      while (cnt < n)

      {

      	*slong++ = word;

      	cnt += K;

      }

      unsigned char *schar = slong;

      while (cnt < n)

      {

      	*schar++ = (unsigned char)c;

  		cnt++;

      }

  }

  return s;

}

5.18

答案不唯一，我这里是利用10 × 10的loop unrolling改“direct evaluation”的版本。

原函数的瓶颈在于xpwr = xpwr * x这一句，乘法数据依赖，由书上给出的K >= L*C （第540面），其中L是latency，C是capacity，由于浮点数乘法分别对应5和2，所以这里的K选择为10。

另外，K大的时候很可能会碰到寄存器不够的情况，不得不使用栈来保存局部变量（运行的时候会加载到高速缓存），会有一些性能上的牺牲。

double faster_poly(double a[], double x, long degree)

{

	long i;

	double result1 = a[0];

	double result2 = 0;

	double result3 = 0;

	double result4 = 0;

	double result5 = 0;

	double result6 = 0;

	double result7 = 0;

	double result8 = 0;

	double result9 = 0;

	double result10 = 0;

	double xpwr1 = x;

	double xpwr2 = xpwr1 * x;

	double xpwr3 = xpwr2 * x;

	double xpwr4 = xpwr3 * x;

	double xpwr5 = xpwr4 * x;

	double xpwr6 = xpwr5 * x;

	double xpwr7 = xpwr6 * x;

	double xpwr8 = xpwr7 * x;

	double xpwr9 = xpwr8 * x;

	double xpwr10 = xpwr9 * x;

	double x10 = xpwr10;

	for (i = 1; (i+9) <= degree; i += 10)

	{

		result1 += a[i] * xpwr1;

		result2 += a[i+1] * xpwr2;

		result3 += a[i+2] * xpwr3;

		result4 += a[i+3] * xpwr4;

		result5 += a[i+4] * xpwr5;

		result6 += a[i+5] * xpwr6;

		result7 += a[i+6] * xpwr7;

		result8 += a[i+7] * xpwr8;

		result9 += a[i+8] * xpwr9;

		result10 += a[i+9] * xpwr10;

		xpwr1 *= x10;

		xpwr2 *= x10;

		xpwr3 *= x10;

		xpwr4 *= x10;

		xpwr5 *= x10;

		xpwr6 *= x10;

		xpwr7 *= x10;

		xpwr8 *= x10;

		xpwr9 *= x10;

		xpwr10 *= x10;

	}

	for (; i <= degree; ++i)

	{

		result1 += a[i] * xpwr1;

		xpwr1 *= x;

	}

	result1 += result2;

	result1 += result3;

	result1 += result4;

	result1 += result5;

	result1 += result6;

	result1 += result7;

	result1 += result8;

	result1 += result9;

	result1 += result10;

	return result1;

}

5.19

瓶颈在于val=val+a[i] （书上还加了last_val ，一个意思）这一句，加法数据依赖，由书上给出的K >= L*C （第540面），其中L是latency，C是capacity，由于浮点数加法分别对应3和1，所以这里选择3*1a。

void faster_psum1a(float a[], float p[], long n)

{

	long i;

	float val = 0;

	for (i = 0; (i+2) < n; i += 3)

	{

		float tmp1 = a[i];

		float tmp2 = tmp1 + a[i+1];

		float tmp3 = tmp2 + a[i+2];

		p[i] = var + tmp1;

		p[i+1] = var + tmp2;

		p[i+2] = var = var + tmp3;

	}

	for (; i < n; ++i)

	{

		var += a[i];

		p[i] = var;

	}

}

深入理解计算机系统_3e 第五章家庭作业 CS:APP3e chapter 5 homework的更多相关文章

深入理解计算机系统_3e 第六章家庭作业 CS:APP3e chapter 6 homework
6.22 假设磁道沿半径均匀分布,即总磁道数和(1-x)r成正比,设磁道数为(1-x)rk: 由题单个磁道的位数和周长成正比,即和半径xr成正比,设单个磁道的位数为xrz: 其中r.k.z均为常数. ...
深入理解计算机系统_3e 第七章家庭作业 CS:APP3e chapter 7 homework
7.6 +-----------------------------------------------------------------------+ |Symbol entry? Symbol ...
深入理解计算机系统_3e 第三章家庭作业 CS:APP3e chapter 3 homework
3.58 long decode2(long x, long y, long z) { int result = x * (y - z); if((y - z) & 1) result = ~ ...
深入理解计算机系统_3e 第十一章家庭作业 CS:APP3e chapter 11 homework
注:tiny.c csapp.c csapp.h等示例代码均可在Code Examples获取 11.6 A. 书上写的示例代码已经完成了大部分工作:doit函数中的printf("%s&q ...
深入理解计算机系统_3e 第九章家庭作业 CS:APP3e chapter 9 homework
9.11 A. 00001001 111100 B. +----------------------------+ | Parameter Value | +--------------------- ...
深入理解计算机系统_3e 第二章家庭作业 CS:APP3e chapter 2 homework
初始完成日期:2017.9.26 许可:除2.55对应代码外(如需使用请联系 randy.bryant@cs.cmu.edu),任何人可以自由的使用,修改,分发本文档的代码. 本机环境: (有一些需要 ...
深入理解计算机系统_3e 第四章家庭作业（部分） CS:APP3e chapter 4 homework
4.52以后的题目中的代码大多是书上的,如需使用请联系 randy.bryant@cs.cmu.edu 更新:关于编译Y86-64中遇到的问题,可以参考一下CS:APP3e 深入理解计算机系统_3e ...
深入理解计算机系统_3e 第八章家庭作业 CS:APP3e chapter 8 homework
8.9 关于并行的定义我之前写过一篇文章,参考: 并发与并行的区别 The differences between Concurrency and Parallel +---------------- ...
深入理解计算机系统_3e 第十章家庭作业 CS:APP3e chapter 10 homework
10.6 1.若成功打开"foo.txt": -->1.1若成功打开"baz.txt": 输出"4\n" -->1.2若未能成功 ...

随机推荐

wealoha thrift-client-pool 总结
DefaultEvictionPolicy类是EvictionPolicy接口的实现主要描述,pool中那些idel对象会被Evict,回收.关键代码如下: public boolean evict( ...
springboot整合shiro
请大家在看本文之前,先了解如下知识点: 1.Shiro 是什么?怎么用? 2.Cas 是什么?怎么用? 3.最好有Spring基础可以先看看这两篇文章,按照这2篇文章的内容做一遍: Spring B ...
js判断手机或Pc端登陆.并跳转到相应的页面
<script src="~/Web/js/jquery-1.10.1.min.js"></script> <script> $(functio ...
【Java框架型项目从入门到装逼】第三节 - 如何用Tomcat发布web项目？
啥叫Tomcat?有道词典是这么说的. 这个我们姑且不管,实际上呢,Tomcat是一种Web服务器,我们自己做好了一个Web项目,就可以通过Tomcat来发布.服务器呢,又分为硬件服务器和软件服务器. ...
【框架学习与探究之依赖注入--Autofac】
声明本文欢迎转载,原文地址:http://www.cnblogs.com/DjlNet/p/7603642.html 序同样的又是一个双11如期而至,淘宝/天猫实时数据显示,开场3分钟总交易额突破 ...
Iptables详解七层过滤
<Iptables详解七层过滤> 一.防火墙简介防火墙其实就是一个加固主机或网络安全的一个设备或者软件而已,通过防火墙可以隔离风险区域与安全区域的连接,同时不会妨碍风险区域的访问.当然需 ...
Spring学习笔记(二)之装配Bean
一,介绍Bean的装配机制在Spring中,容器负责对象的创建并通过DI来协调对象之间的关系.但是我们要告诉Spring创建哪些Bean并且如何将其装配在一起.,装配wiring就是DI依赖注入的本 ...
RAC(ReactiveCocoa)使用方法(一)
RAC(ReactiveCocoa)使用方法(一) RAC(ReactiveCocoa)使用方法(二) 什么是RAC? 最近回顾了一下ReactiveCocoa的方法,也看了一些人的文章,现写篇文章总 ...
去培训机构参加IT培训值不值
近几年,IT培训机构可谓是琳琅满目,稂莠不齐.培训Java的,培训PHP的,培训大数据的等等吧,不一而足. 自己也算是IT技术圈子待了好多年了,面试过一些机构培训出来的学生,也有几个好哥们在培训机构做 ...
lazy ideas in programming(编程中的惰性思想)
lazy形容词,懒惰的,毫无疑问是一个贬义词.但是,对于计算机领域,lazy却是非常重要的优化思想:把任务推迟到必须的时刻,好处是避免重复计算,甚至不计算.本文的目的是抛砖引玉,总结一些编程中的laz ...

深入理解计算机系统_3e 第五章家庭作业 CS:APP3e chapter 5 homework

深入理解计算机系统_3e 第五章家庭作业 CS:APP3e chapter 5 homework的更多相关文章

随机推荐

热门专题