执行速度

如果还没有为 cachetest 收集性能数据,必须进行收集。相关说明参见为 cachetest 示例收集数据

在示例的此部分,将计算各种数值,用来度量六种矩阵向量乘法函数的执行速度。

  1. 对浮点运算实验启动分析器。
    % cd work-directory/cachetest
    % analyzer flops.er &
    
  2. 单击 [名称] 列的标题。

    函数按名称排序,显示画面同样以选定的函数居中。

  3. 对于 dgemv_g1dgemv_g2dgemv_opt1dgemv_opt2dgemv_hi1dgemv_hi2 六个函数,每个都添加“FP 加”和“FP 乘”计数,除数为用户 CPU 时间和 106。

    所得数字是每个例程的 MFLOPS 计数。所有子例程都具有相同的已发出浮点指令数,但使用的 CPU 时间量不同。(计数之间的变化归因于计数统计。)dgemv_g2 的性能优于 dgemv_g1dgemv_opt2 的性能优于 dgemv_opt1,而 dgemv_hi2dgemv_hi1 的性能基本相同。

  4. 将此处得到的 MFLOPS 计数与程序打印的 MFLOPS 值进行比较。

    从数据计算的值较小,这是因为收集硬件计数器数据会导致额外的系统开销。


找到要找的内容了吗?如未找到,请将您的意见通过电子邮件发送至 docfeedback@sun.com。
法律声明