如果还没有为 cachetest 收集性能数据,必须进行收集。相关说明参见为 cachetest 示例收集数据。
在示例的此部分,将计算各种数值,用来度量六种矩阵向量乘法函数的执行速度。
% cd work-directory/cachetest % analyzer flops.er &
函数按名称排序,显示画面同样以选定的函数居中。
所得数字是每个例程的 MFLOPS 计数。所有子例程都具有相同的已发出浮点指令数,但使用的 CPU 时间量不同。(计数之间的变化归因于计数统计。)dgemv_g2 的性能优于 dgemv_g1,dgemv_opt2 的性能优于 dgemv_opt1,而 dgemv_hi2 与 dgemv_hi1 的性能基本相同。
从数据计算的值较小,这是因为收集硬件计数器数据会导致额外的系统开销。