高レベルな最適化 (HLO) は、各最適化の有用性および適用可能性に基づいて特定の最適化を行います。HLO レポートは、関連するすべての領域に加えて、構造体分割およびループ伝播のスカラー置換についての情報を提供します。また、次の理由から行われなかったループ交換についての情報も提供します。
関数呼び出しがループの内部にある
ループの入れ子が不完全である
データの依存関係に基づいている (交換を妨げている依存性についてもレポートされます。)
元の順序は適切ではあるが、交換を行うには不完全であると見なされた可能性がある
例えば、レポートは、コンパイラーが最適化の候補となるはずのループの入れ子になぜループ交換を適用しなかったかを知る手がかりを提供します。レポートされた問題 (ボトルネック) がソースコードを変更することで排除できる場合は、レポートは可能性のあるループ交換を示唆します。
オペレーティング・システムに応じて、次のオプションを指定し、HLO を有効にしてレポートを作成します。
Linux* および Mac OS* X: -x、-O2 または -O3、-opt-report 3、-opt-report-phase=hlo
Windows*: /Qx、/O2 または /O3、/Qopt-report:3、/Qopt-report-phase:hlo
HLO の詳細については、「高レベルな最適化の概要」を参照してください。
次のコマンド例は、HLO レポートの作成に必要な一般的なコマンドです。
オペレーティング・システム |
コマンド例 |
---|---|
Linux および Mac OS X |
ifort -c -xSSE3 -O3 -opt-report 3 -opt-report-phase=hlo sample.f90 |
Windows |
ifort /c /QxSSE3 /O3 /Qopt-report:3 /Qopt-report-phase:hlo sample.f90 |
-opt-report-file (Linux および Mac OS X) または /Qopt-report-file (Windows) を使用して、レポート結果をキャプチャーする出力ファイルを指定します。結果をキャプチャーするファイルを指定することで、結果の解析に費やす時間を短縮でき、後に行うテスティングの基本ラインをつかむことができます。
レポートは、特定の形式で情報を提供します。Windows のレポート形式は、Linux や Mac OS X のレポート形式とは異なります。レポート出力には共通の要素が含まれますが、レポートが提供するアドバイスを理解する一番良い方法は、コード例とそのレポート出力を実際に確認することです。
例 1: この例では、関数呼び出しがループの内部にある場合を示しています。
例 1 |
---|
subroutine foo (A, B, bound) integer i,j,n,bound integer A(bound), B(bound,bound) n = bound do j = 1, n do i = 1, n B(j,i) = B(j,i) + A(j) call bar(A,B) end do end do return end subroutine foo |
オペレーティング・システムを問わず、レポートでは、特定の関数の最適化結果が 1 行で示され、その後にレポートされた処理が示されます。行の形式と説明は下にリストされます。
次の表は、一般的なレポート要素と結果の解釈に役立つ説明をまとめたものです。
レポート要素 |
説明 |
---|---|
レポートされる関数についての情報です。次の形式で示されます。 <source name>;<start line>;<end line>;<optimization>; <function name>;<element type> 例えば、レポートには次の情報が含まれます。 Linux および Mac OS X: <sample1.f90;-1:-1;hlo;foo_;0> Windows: <sample1.f90;-1:-1;hlo;_FOO;0> |
ここでは、次の情報が含まれます。
|
いくつかのレポート要素はグループ化されます。 QLOOPS 2/2 ENODE ループ 2 不明 0 multi_exit_do 0 do 2 linear_do 2 線形 HLO 式: 17 / 18 |
Windows のみ: レポートのこのセクションには、次の情報がリストされます。
|
上記のコード例では次のような結果が出力されます。
オペレーティング・システム |
例 1 のレポート出力 |
---|---|
Linux および Mac OS X |
<sample1.f90;-1:-1;hlo;foo_;0> 高レベル・オプティマイザー・レポート (foo_) ブロック、アンロール、ジャムレポート: (ループ行の番号、アンロールファクターおよび変換の種類) <sample1.f90;7:7;hlo_unroll;foo_;0> ループ (行:7) 剰余ありでアンロール - 2 |
Windows |
<sample1.f90;-1:-1;hlo;_FOO;0> 高レベル・オプティマイザー・レポート (_FOO) QLOOPS 2/2 ENODE ループ 2 不明 0 multi_exit_do 0 do 2 linear_do 2 線形 HLO 式: 17 / 18 ------------------------------------------------------------------------------ C:\samples\sample1.f90;6:6;hlo_linear_trans;_FOO;0> ループ交換は完了しませんでした: ユーザー関数の内部ループが入れ子です。 アドバイス: ループ交換は (可能であれば) 次の行のループに使用してもかまいません: 6 7 : 推奨する順列: (1 2 ) --> ( 2 1 ) |
例 2: ループの入れ子によりループ交換が妨げられた例を示しています。
例 2 |
---|
subroutine foo (A, B, bound) integer i,j,n,bound integer A(bound), B(bound,bound) n = bound do j = 1, n A(j) = j + B(1,j) do i = 1, n B(j,i) = B(j,i) + A(j) end do end do return end subroutine foo |
上記のコード例では次のような結果が出力されます。
オペレーティング・システム |
例 2 のレポート出力 |
---|---|
Linux および Mac OS X |
<sample2.f90;-1:-1;hlo;foo_;0> 高レベル・オプティマイザー・レポート (foo_) ブロック、アンロール、ジャムレポート: (ループ行の番号、アンロールファクターおよび変換の種類) <sample2.f90;8:8;hlo_unroll;foo_;0> ループ (行:8) 剰余ありでアンロール - 2 |
Windows |
<sample2.f90;-1:-1;hlo;_FOO;0> 高レベル・オプティマイザー・レポート (_FOO) QLOOPS 2/2 ENODE ループ 2 不明 0 multi_exit_do 0 do 2 linear_do 2 線形 HLO 式: 24 / 24 ------------------------------------------------------------------------------ C:\samples\sample2.f90;6:6;hlo_linear_trans;_FOO;0> ループ交換は完了しませんでした: ループの入れ子が完全ではありません (ソースのいずれかまたは 他のコンパイラー変換による) アドバイス: ループ交換は (可能であれば) 次の行のループに使用してもかまいません: 6 8 : 推奨する順列: (1 2 ) --> ( 2 1 ) |
例 3: この例では、データの依存関係によりループ交換が禁止されている状態を示しています。
例 3 |
---|
subroutine foo (bound) integer i,j,n,bound integer A(100,100), B(100,100), C(100,100) equivalence (B(2),A) n = bound do j = 1, n do i = 1, n A(j,i) = C(j,i) * 2 B(j,i) = B(j,i) + A(j,i) * C(j,i) end do end do return end subroutine foo |
上記のコード例では次のような結果が出力されます。
オペレーティング・システム |
例 3 のレポート出力 |
---|---|
Linux および Mac OS X |
<sample3.f90;-1:-1;hlo;foo_;0> 高レベル・オプティマイザー・レポート (foo_) <sample3.f90;8:8;hlo_scalar_replacement;in foo_;0> 置換された配列参照スカラー foo_ の数 (行 8=2) ブロック、アンロール、ジャムレポート: (ループ行の番号、アンロールファクターおよび変換の種類) <sample3.f90;8:8;hlo_unroll;foo_;0> ループ (行:8) 剰余ありでアンロール - 2 |
Windows |
<sample3.f90;-1:-1;hlo;_FOO;0> 高レベル・オプティマイザー・レポート (_FOO) QLOOPS 2/2 ENODE ループ 2 不明 0 multi_exit_do 0 do 2 linear_do 2 線形 HLO 式: 24 / 24 ------------------------------------------------------------------------------ C:\samples\sample3.f90;8:8;hlo_scalar_replacement;in _FOO ;0> 置換された配列参照スカラー _FOO の数 (行 8=1) C:\samples\3.f90;7:7;hlo_linear_trans;_FOO;0> ループ交換は完了しませんでした: データの依存関係があります。 以下のステートメント間で依存関係が見つかりました: [From_Line# -> (依存関係の種類) To_Line#] [9 ->(Flow) 10] [9 ->(Output) 10] [10 ->(Anti) 10] [10 ->(Anti) 9] [10 ->(Output) 9] アドバイス: ループ交換は (可能であれば) 次の行のループに使用してもかまいません: 7 8 : 推奨する順列: (1 2 ) --> ( 2 1 ) |
例 4: この例は、ループの順序は適切だと判断されたけれども、ループ交換による効果がわずかしか見込めない場合を示しています。
例 4 |
---|
subroutine foo (A, B, bound, value) integer i,j,n,bound,value integer A(bound, bound), B(bound,bound) n = bound do j = 1, n do i = 1, n A(i,j) = A(i,j) + B(j,i) end do end do value = A(1,1) return end subroutine foo |
上記のコード例では次のような結果が出力されます。
オペレーティング・システム |
例 4 のレポート出力 |
---|---|
Linux および Mac OS X |
<sample4.f90;-1:-1;hlo;foo_;0> 高レベル・オプティマイザー・レポート (foo_) ブロック、アンロール、ジャムレポート: (ループ行の番号、アンロールファクターおよび変換の種類) <sample4.f90;7:7;hlo_unroll;foo_;0> ループ (行:7) 剰余ありでアンロール - 2 |
Windows |
<sample4.f90;-1:-1;hlo;_FOO;0> 高レベル・オプティマイザー・レポート (_FOO) QLOOPS 2/2 ENODE ループ 2 不明 0 multi_exit_do 0 do 2 linear_do 2 線形 HLO 式: 18 / 18 |
例 5: この例では、ループの入れ子が不完全でループの順序は良いが、ループ交換による効果がわずかしかない場合を示しています。
例 |
---|
subroutine foo (A, B, C, bound, value) integer i,j,n,bound,value integer A(bound, bound), B(bound,bound), C(bound, bound) n = bound do j = 1, n value = value + A(1,1) do i = 1, n value = B(i,j) + C(j,i) end do end do return end subroutine foo |
上記のコード例では次のような結果が出力されます。
オペレーティング・システム |
例 5 のレポート出力 |
---|---|
Linux および Mac OS X |
<sample5.f90;-1:-1;hlo;foo_;0> 高レベル・オプティマイザー・レポート (foo_) ループの入れ子前処理レポート: <sample5.f90;7:8;hlo;foo_;0> 前処理ループの入れ子 <foo_>: ストア @行<8> (ループ @行<7>) を外に移動しています。 |
Windows |
<sample5.f90;-1:-1;hlo;_FOO;0> 高レベル・オプティマイザー・レポート (_FOO) QLOOPS 2/2 ENODE ループ 2 不明 0 multi_exit_do 0 do 2 linear_do 2 線形 HLO 式: 20 / 25 ------------------------------------------------------------------------------ ループの入れ子前処理レポート: C:\samples\sample5.f90;7:8;hlo;_FOO;0> 前処理ループの入れ子 <_FOO>: ストア @行<8> (ループ @行<7>) を外に移動しています。 C:\samples\sample5.f90;5:5;hlo_linear_trans;_FOO;0> ループ交換は完了しませんでした: ループの入れ子が完全ではありません (ソースのいずれかまたは 他のコンパイラー変換による) アドバイス: ループ交換は (可能であれば) 次の行のループに使用してもかまいません: 5 7 : 推奨する順列: (1 2 ) --> ( 2 1 ) |
HLO レポートにより、コンパイラーが行ったループ変換について知ることができ、またいくつかのアドバイスを得られますが、ループの変換が省略されたことにより、コンパイラーが試みた変換があることも示唆している可能性があります。次のリストは、適用できる可能性のあるいくつかの変換を示しています。(手動キャッシュブロックのような手動の最適化テクニックは避けるか、または最後の手段としてください。)
ループ交換 - 2 つの入れ子しているループの実行順を交換して、キャッシュの局所性またはユニット・ストライド・アクセスのパフォーマンス上の利点を活用します。
分配 - 1 つの大きなループを 2 つの小さなループに分配または分割します。非常に多くのレジスターが大きなループで消費されている場合に効果的である可能性があります。
融合 - トリップカウントが同じ 2 つの小さなループを融合して、データの局所性を向上させます。
ループ・ブロッキング - キャッシュ・ブロッキングは、キャッシュにすでに存在するデータでできるだけ多くの演算を行うようにループをアレンジします。(最初のブロックを使用する演算がすべて完了するまで、データの次のブロックはキャッシュに読み込まれません。)
アンロール - アンロールは、各ループの反復を大きくすることで、必要なループの反復数を少なくして、ループ構造を部分的に逆アセンブルする方法です。アンロールは、命令とデータのレイテンシーを隠すため、浮動小数点ロードペア命令の利点を活用し、またメモリー操作ごとに行われる実際の作業の比率を増やすために使用できます。
プリフェッチ - データが実際に必要になる前に、いくつかのループ反復で相対的に遅いメモリーからより高速なキャッシュにデータを移動するようにコンパイラーに要求します。
ロードペア - メモリーから 2 つの浮動小数点データ要素を一度にロードする命令を利用します。