计算机体系结构:量化研究方法(第5版)
本文关键词:计算机体系结构:量化研究方法,由笔耕文化传播整理发布。
> 计算机体系结构:量化研究方法(第5版) 1.13 历史回顾与参考文献 2013-01-04 09:06:24 我要投稿
本文所属图书 > 计算机体系结构:量化研究方法(第5版)
本书是最权威的计算机体系结构著作,是久负盛名的经典作品。书中系统地介绍了计算机系统的设计基础、指令集系统结构、流水线和指令集并行技术、层次化存储系统与存储设备、互连网络以及多处理器系统等重要内容。... 立即去当当网订购
附录L从历史角度回顾了本书每一章中介绍的重要思想。这些历史回顾可以让我们通过一系列计算机或重大项目的介绍来了解一种思想的发展历程。如果你想研究一种思想或机器的最初发展,或者希望扩展阅读,可以参见每段历史介绍的末尾提供的参考文献。关于本章,可参见附录L.2节(The Early Development of Computers,计算机的早期发展),其中讨论了数字计算机及性能测量方法的早期发展。
在阅读这些历史资料时,你很快就会意识到,与许多其他工程领域相比,计算科学是如此“年轻”,它的重要优势之一就是许多先驱仍 然健在——我们可以直接向他们了解历史!
案例研究与练习(Diana Franklin设计)
案例研究1:芯片制造成本
本案例研究说明的概念
制造成本
制造成品率
以冗余容忍缺陷
计算机芯片的价格中涉及许多因素。新的小型化技术大幅提升了芯片性能,降低了所需要的芯片面积。采用小型化技术,人们可以缩小芯片的面积或者在芯片上放置更多硬件,从而实现更多功能。在这个研究案例中,我们将研究包括制造技术、芯片面积和冗余在内的各种不同设计决策是如何影响芯片成本的,见表1-11。
表1-11 几种现代处理器的制造成本因素
芯 片 晶片尺寸(mm2) 估测缺陷率(每cm2) 制程(nm) 晶体管数(百万个)
IBM Power5 389 0.30 130 276
Sun Niagara 380 0.75 90 279
AMD Opteron 199 0.75 90 233
1.1 [10/10] <1.6>表1-11给出了影响几种当前芯片成本的相关芯片统计数字。在下面几个练习中,我们将研究IBM Power5的不同设计决策所产生的影响。
a. [10] <1.6>IBM Power5的成品率是多少?
b. [10] <1.6>为什么IBM Power5的缺陷率要低于Niagara和Opteron?
1.2 [20/20/20/20] <1.6>建造一套新的制造设备需要10亿美元。我们将销售由这家工厂生成的一系列芯片,需要决定每种芯片的生产量。Woods芯片的大小为150 mm2,每个无缺陷芯片的利润为20美元。Markon芯片的大小为250 mm2,每个无缺陷芯片的利润为25美元。这套制造设备与Power5的制造设备相同。每个晶圆的直径为300 mm。
a. [20] <1.6>如果制造Woods芯片,每个晶圆的利润为多少?
b. [20] <1.6>如果制造Markon芯片,每个晶圆的利润为多少?
c. [20] <1.6>我们应当用这套设备生产哪种芯片?
d. [20] <1.6>每种新Power5芯片的利润是多少?如果Woods芯片的月需求量为50 000个,Markon芯片为25 000个,而这套设备一个月可以生产150个晶圆,如何分配这些晶圆?
1.3 [20/20] <1.6>AMD公司的一位同事建议:由于成品率如此之低,所以如果在晶片上再放一个核心,只有那些两个处理器都失效的芯片才被扔掉,那就有可能降低芯片的制造成本。为了完成这个练习,我们将成品率看作是在给定缺陷率下,特定区域未发生缺陷的概率。分别基于每种Opteron核心计算概率(这种计算方法可能不完全准确,成品率公式是根据实验证据得出的,而不是根据芯片不同部分出现错误的概率,再经过数学计算得出的)。
a. [20] <1.6>在两个处理器核心中,缺陷核心数不超过一个的概率是多少?
b. [20] <1.6>如果每个旧芯片的成本为20美元,考虑到新的芯片面积和成品率,新芯片的成本应当是多少?
案例研究2:计算机系统中的功耗
本案例研究说明的概念
Amdahl定律
冗余
MTTF
功耗
现代系统中的功率取决于多种因素,包括芯片时钟频率、效率、磁盘驱动器速度、磁盘驱动器使用率和DRAM。下面的练习研究不同设计决策和使用情景对功率的影响。
1.4 [20/10/20] <1.5>表1-12给出了几种计算机系统组件的功耗。在这个练习中,我们将研究硬盘驱动器是如何影响系统功耗的。
a. [20] <1.5>假定每个组件的负载最大,且电源效率为80%,有一系统,采用Intel Pentium 4芯片,2 GB 240管脚金士顿DRAM和一个7200 rpm的硬盘驱动器,问服务器电源必须向这个系统提供的功率为多少瓦?
b. [10] <1.5>如果这个7200 rpm磁盘驱动器的空闲时间大约占60%,则它会消耗多少功率?
c. [20] <1.5>假定从一个7200 rpm磁盘驱动器读取数据的时间大约是5400 rpm磁盘读取时间的75%,7200 rpm磁盘的空闲时间占多大比例时,两个磁盘的平均功耗相等吗?
1.5 [10/10/20] <1.5>在为服务器场供电时,一个至关重要的因素就是冷却。如果不能有效地使计算机散热,风扇就会把热空气而不是冷空气吹回计算机。我们将研究各种不同设计决策如何影响一个系统的必要冷却方式,从而影响它的价格。请使用表1-12进行功率计算。
a. [10] <1.5>机架上安装一个冷却门的成本是4000美元,可以消散14 KW(向室内散热;向室外散热需要增加成本)。如果服务器采用Intel Pentium 4处理器,1 GB 240管脚DRAM和一个7200 rpm硬盘驱动器,那么一个冷却门可以冷却多少个服务器?
b. [10] <1.5>我们正在考虑为硬盘驱动器提供容错功能。RAID 1将磁盘数目加倍(见第6章)。现在,一个只有一个冷却器的机架中可以放入多少个系统?
c. [20] <1.5>典型的服务器场每平方英尺可以消耗最多200W的热量。如果一个服务器机架需要11平方英尺(包括前后间隙),在一个机架内可以放入多少个第(a)步中提到的服务器?需要多少个冷却门?
表1-12 几种计算机组件的功耗
组件类型 产 品 性 能 功 率
处理器 Sun Niagara 8-core 1.2 GHz 72~79 W(峰值)
Intel Pentium 4 2 GHz 48.9~66 W
DRAM 金士顿X64C3AD2 1 GB 184个管脚 3.7W
金士顿D2N3 1 GB 240个管脚 2.3W
硬盘驱动器 DiamondMax 16 5400 rpm 读取/寻道时7.0 W,空闲时2.9 W
DiamondMax 9 7200 rpm 读取/寻道时7.9 W,空闲时4.0 W
1.6 [讨论]<1.8>表1-13给出了几种基准测试对两个服务器的功率和性能进行对比的结果。两个服务器分别为Sun Fire T2000(采用Niagara)和IBM x346(使用Intel Xeon处理器)。这一信息曾在Sun Web网站上发布。共发布了两条信息:两个基准测试的功率和速度。对于所示结果,Sun Fire T2000显然要更好一些。还有其他哪些因素也很重要,会使一些人因为IBM x346在这些领域有出众表现而选择它?
表1-13 Sun功率/性能对比,由Sun选择性报告
Sun Fire T2000 IBM x346
功率(瓦) 298 438
SPECjbb(操作数/秒) 63 378 39 985
功率(瓦) 330 438
SPECWeb(复合) 14 001 1348
1.7 [20/20/20/20] <1.6、1.9>公司的内部研究表明:一个单核系统就足以满足对处理能力的要求,而我们正在研究使用两个核心能否节省功率。
a. [20] <1.9>假定应用程序有80%是可并行化的。可以将频率降低多少而仍能获得相同性能?
b. [20] <1.6>假定电压可能随频率线性下降。利用1.5节的公式,与单核系统相比,双核系统可能需要多少动态功率?
c. [20] <1.6、1.9>现在假定电压不会降至原电压的25%以下。这一电压被称为电压下限,低于这一电压就会丢失状态。当并行化百分比为多少时,将使电压处于这一电压下限?
d. [20] <1.6、1.9>使用1.5节的公式,考虑到电压下降,双核系统与单核系统相比,需要多少动态功率?
练习
1.8 [10/15/15/10/10] <1.4、1.5>架构师面对的一个挑战是,今天拟定的设计方案可能需要几年的时间进行实施、验证和测试,然后才能上市。这就意味着架构师必须提前为几年之后的技术进步制定计划。有时,这是很难做到的。
a. [10] <1.4>根据摩尔定律观测到的器件发展趋势,到2015年,一个芯片上的晶体管数目应当是2005年的多少倍?
b. [15] <1.5>时钟频率的增加也一度反映了这一趋势。如果时钟频率仍以20世纪90年代的相同速度攀升,2015年的时钟速率大约是多少?
c. [15] <1.5>以目前的增长速率,2015年的时钟频率是多少?
d. [10] <1.4>是什么限制了时钟频率的增长速度?为了提升性能,架构师现在能用多出来的晶体管做些什么?
e. [10] <1.4>DRAM容量的增长速度也已变缓。20年来,DRAM容量每年提高60%。这一速率下降到每年40%,现在的改进速率为每年25%~40%。如果这一趋势继续下去,2020年的DRAM容量增速大约是多少?
1.9 [10/10] <1.5>我们正在为一种实时应用设计系统,这种应用要求必须在指定期限之前完成计算。提前完成计算没有任何收益。我们发现,在最糟糕的情况下,这一系统执行必需代码的速度是最低要求速度的两倍。
a. [10] <1.5>如果以当前速度执行计算,并在完成任务后关闭系统,可以节省多少能量?
b. [10] <1.5>如果将电压和频率设置为现在的一半,可以节省多少能量?
1.10 [10/10/20/20] <1.5>诸如Google和Yahoo!之类的服务器场都为当时的最高请求速率提供了足够的计算容量。假设这些服务器在大多数时间内仅以60%的容量运行。进一步假设功率不会随负载线性改变,也就是说,当服务器以60%的容量运行时,它们消耗的功率为最大功率的90%。这些服务器可以关闭,但在负载更多时,需要的重新启动时间过长。有人提议采用一种新型系统,,它能够快速重新启动,但处在这种“勉强生存”状态时需要消耗一定的功率,为最大值的20%。
a. [10] <1.5>关闭60%的服务器可以节省多少功率?
b. [10] <1.5>将60%的服务器置于“勉强生存”状态,可以节省多少功率?
c. [20] <1.5>将电压降低20%,频率降低40%,可以节省多少功率?
d. [20] <1.5>将30%的服务器置于“勉强生存”状态,30%的服务器关闭,可以节省多少功率?
1.11 [10/10/20] <1.7>可用性是服务器设计中的最重要考虑事项,紧随其后的是可扩展性和吞吐量。
a. [10] <1.7>有一个处理器,其FIT为100。这个系统的平均无故障时间(MTTF)为多少?
b. [10] <1.7>如果需要1天的时间才能让这个系统再次正常运行,这个系统的可用性是多少?
c. [20] <1.7>假设政府为了降低成本,准备用廉价计算机构建一个超级计算机,而不是使用可靠但却昂贵的计算机。一个具有1000个处理器的系统,其MTTF为多少?(假设这些处理器一损俱损。)
1.12 [20/20/20] <1.1、1.2、1.7>在Amazon或eBay使用的服务器场中,一个故障不会导致整个系统崩溃,而是减少在任意时刻能够满足的请求数目。
a. [20] <1.7>如果一个公司有10 000台计算机,每台计算机的MTTF为35天,而且只有当1/3以上的计算机发生故障时才会经历灾难性故障,系统的MTTF为多少?
b. [20] <1.1、1.7>如果一台计算机的MTTF加倍,需要另加1000美元,这是不是一个很好的业务决策?证明你的结论。
c. [20] <1.2>表1-2给出了宕机的平均成本,假定在一年的所有时间内,该成本不变。但对于零售商来说,圣诞季节是盈利水平最高的(因此,如果因为宕机造成无法销售,损失也最大)。如果目录销售中心在第四季度的通信流量是其他任一季度的两倍,那第四季度每小时的平均宕机成本是多少?其他时间的宕机成本又是多少?
1.13 [10/20/20] <1.9>你的公司正要选择是购买Opteron,还是Itanium 2。你已经分析了公司的应用情况,在60%的时间里运行类似于wupwise之类的应用程序,20%的时间里运行类似于ammp之类的应用程序,20%的时间里运行类似于apsi之类的应用程序。
a. [10] 如果仅依据SPEC总体性能进行选择,你选择哪一种?为什么?
b. [20] 对Opteron和Itanium 2来说,这种混合应用程序的加权平均执行时间比是多少?
c. [20] Opteron相对于Itanium 2的加速比是多少?
1.14 [20/10/10/10/15] <1.9>在这个练习中,假定我们正在考虑通过添加向量硬件来提高一个机器的性能。当一个计算运行于向量硬件的向量模式时,其速度是正常执行模式的10倍。我们将使用向量模式时花费的时间百分比称为向量化百分比。向量将在第4章讨论,但回答下面的问题不需要知道有关其工作方式的任何信息!
a. [20] <1.9>绘制一条曲线,以加速比为因变量,以向量模式下所执行计算的比例为自变量。将y轴标记为“净加速比”,x轴标记为“向量化百分比”。
b. [10] <1.9>向量化百分比达到多少时,才能使加速比为2?
c. [10] <1.9>如果已经使加速比为2,在向量模式下的计算运行时间占多大百分比?
d. [10] <1.9>向量化百分比达到多少时,才能使加速比为向量模式所能实现的最大加速比的一半?
e. [15] <1.9>假定已经测得程序的向量化百分比为70%。硬件设计组估计,通过大量追加投入,可以加快向量硬件的速度。你想知道编译器组是否也能提高向量化百分比。编译器团队需要实现多大的向量化百分比,才能在向量单元中获得另外2倍的加速(超过最初的10倍以上)?
1.15 [15/10] <1.9>假定我们对一台计算机进行了升级,使某种执行模式提升为原来的10倍。升级模式的使用时间占总时间的50%,这一数值是在使用该升级模式时测得的执行时间百分比。回想一下,Amdahl定律需要的是能改进但还没有改进的原执行时间比例。因此,在使用Amdahl定律计算加速比时,不能使用这个50%的测量值。
a. [15] <1.9>从快速模式获得的加速比是多少?
b. [10] <1.9>转换为快速模式的原执行时间比例是多少?
1.16 [20/20/15] <1.9>在为了优化处理器的某一部分而进行改变时,经常会出现这样一种情况:加速某种类型的指令时,会降低其他某些指令的速度。例如,如果放入一个复杂的浮点单元,它要占用空间,为了容纳它,就得将某些东西移得远一些,这样就会要增加一些延迟周期才能到达被挪远的单元。基本的Amdahl定律公式没有考虑这种折中。
a. [20] <1.9>如果这个新的快速浮点单元使浮点运算平均提高到2倍,浮点运算占用的时间为原程序执行时间的20%,那么总加速比为多少(忽略对所有其他指令的影响)?
b. [20] <1.9>现在假定浮点单元的加速会降低数据缓存访问的速度,减缓倍数为1.5(或者说加速比为2/3)。数据缓存访问时间为总执行时间的10%。现在的总加速比为多少?
c. [15] <1.9>在实现新的浮点运算之后,在浮点运算上花费的执行时间占多大比例?数据缓存访问又占多大比例?
1.17 [10/10/20/20] <1.10>公司刚刚购买了一个新的Intel Core i5双核处理器,你接到针对这一处理器来优化软件的任务。你将在这个双核处理器上运行两个应用程序,但它们的资源需求并不一样。第一个程序需要80%的资源,另一个仅需要20%的资源。假定对该程序的一部分进行并行化时,该部分的加速比为2。
a. [10] <1.10>假定第一个应用程序的40%可以并行化,那么在隔离运行时,通过这个应用程序可以实现多大的加速比?
b. [10] <1.10>假定第二个应用程序的99%可以并行化,那么在隔离运行时,这个应用程序可以达到多大的加速比?
c. [20] <1.10>假定第一个应用程序的40%可以并行化,如果对其实现并行化,系统总加速比为多少?
d. [20] <1.10>假定第二个应用程序的99%可以并行化,如果对其实现并行化,系统总加速比为多少?
1.18 [10/20/20/20/25] <1.10>在实现一个应用程序的并行化时,理想加速比应当等于处理器的个数。但它要受到两个因素的限制:可并行化应用程序的百分比和通信成本。Amdahl定律考虑了前者,但没有考虑后者。
a. [10] <1.10>如果应用程序的80%可以并行化,N个处理器的加速比为多少?(忽略通信成本。)
b. [20] <1.10>如果每增加一个处理器,通信开销为原执行时间的0.5%,则8个处理器的加速比为多少?
c. [20] <1.10>如果处理器数目每增加一倍,通信开销增加原执行时间的0.5%,则8个处理器的加速比为多少?
d. [20] <1.10>如果处理器数目每增加一倍,通信开销增加原执行时间的0.5%,则N个处理器的加速比为多少?
e. [25] <1.10>写出求解这一问题的一般公式:如果一个应用程序中占原执行时间的P%可以并行化,处理器数目每增加一倍,通信成本增加原执行时间的5%,则达到最高加速比的处理器数目为多少?
点击复制链接 与好友分享!回本站首页 您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力 上一篇:1.12 结语 下一篇:精益创业实战(第2版) 相关文章1.13 如何用龙须面穿过整个宇宙?
1.13 传播距离和辐射角
不期回报地参与对话
参与者
2.5.6 OLAP与OLTP
2.2.3 导航与搜索
1.1 《指南》与项目管理的关系
1.6.3 成本与价格
1.11 谬论与易犯错误
O2O与电商
图文推荐本文关键词:计算机体系结构:量化研究方法,由笔耕文化传播整理发布。
本文编号:336428
本文链接:https://www.wllwen.com/wenshubaike/mishujinen/336428.html