cachetest のパフォーマンスデータを収集したことを確認してください。 これらの作業が完了していない場合は、cachetest サンプルのデータ収集を参照して実行してください。
ここでは、6 種類のマトリックス - ベクトル乗算関数の実行速度を測る数値を演算します。
% cd work-directory/cachetest % analyzer flops.er &
関数は名前別にソートされ、選択された関数を基準に表示がセンタリングされます。選択された関数は変わりません。
求めた結果が、各ルーチンの MFLOPS カウントです。 発行される浮動小数命令の数はすべてのルーチンで同じですが、使用する CPU 時間が異なります (この違いは、カウント方法の違いによるものです)。 dgemv_g2 のパフォーマンスは dgemv_g1 のパフォーマンスより良く、dgemv_opt2 のパフォーマンスは dgemv_opt1 のパフォーマンスより良いですが、dgemv_hi2 と dgemv_hi1 のパフォーマンスはほぼ同じです。
ハードウェアカウンタデータの収集にオーバーヘッドがかかるため、データから計算された値の方が小さくなります。