Cell SPUのスカラ演算、整数演算、分岐の編集履歴一覧 - techsure @ ウィキ

このページを編集する

Cell SPUのスカラ演算、整数演算、分岐

「Cell SPUのスカラ演算、整数演算、分岐」の編集履歴（バックアップ）一覧に戻る

Cell SPUのスカラ演算、整数演算、分岐 - (2008/11/16 (日) 16:54:08) の編集履歴(バックアップ)

比較対象がないと速いか遅いかを論じるのは意味なし。
なので結論は出さず。

最初に参考リンク

SPUの整数演算は遅いか？
SPUの分岐は遅いか？
SPUのスカラ演算は遅いか？
- ロード
- ストア
32bitの乗算がないってほんと？
LSはL1並に速いか？

SPUの整数演算は遅いか？

整数演算の性能は次の通り

128bit x1 論理演算
32bit x4 四則演算、論理演算
16bit x4 積和演算
16bit x8 四則演算、論理演算
8bit x16 特殊演算

が毎サイクル実行可能、レイテンシは2、または4サイクル。

ちなみに浮動少数演算の性能は次の通り

float x4 積和演算が毎サイクル実行可能、レイテンシが6サイクル
double x2 積和が7サイクルで実行可能、レイテンシが13サイクル

SPUの分岐は遅いか？

パイプラインが26段と深いため、分岐予測が外れた場合のペナルティは17～18サイクルと大きい。
ハードウエアで動的分岐予測機構を持たないが、ソフトウェア的に分岐ヒント命令と条件選択命令を持つ。
分岐ヒントの予測が正しければ分岐のペナルティは0。
また2値のいずれかの選択だけの分岐であるなら、投機的に2値をどちらも計算した上で条件選択命令を使うことで
分岐自体をなくすことが可能。

SPUのスカラ演算は遅いか？

上記フィックスターズの記事にあるとおりLSからのロード、LSへのストアで無駄が発生することが多い。
ただし128bitレジスタが128本あるので可能な限りオンレジスタで演算させるのがSPU流なので、
そんなにコストが発生するわけではないと思われる。

ロード

# アライメントがとれていないbyteをロードする
#  $ra : アドレス
#  $rb : 結果をいれる
 
# $raの下位4bitは無視されるため自動的に16バイトアラインでロードされる
lqd $rb, 0($ra)
 
# $raの下位4bitを使って$rtをバイト単位でローテートすることでMSBに移動させる
rotqby $rb, $rb, $ra
 
# プリファードスロットへさらにローテート
rotqbyi $rb, $rb, -3

byte、halfwordの場合だけ12.のローテートが必要

ストア

# アライメントがとれていないbyte位置へストアする
#  $ra : アドレス
#  $rb : バイトデータ
#  $rc, rd, re : テンポラリ
 
# まずストア位置のデータをロードする
lqd $rc, 0($ra)
 
# バイト挿入マスクの生成
cbd $rd, 0($ra)
 
# シャッフル
#  rbのプリファードスロットとrcのプリファードスロット以外とを合成する
shufb $re, $rb, $rc, $rd
 
# ストアする
stqd $re, 0($ra)

32bitの整数乗算をするインストラクションはない。
16bitの乗算命令(出力は32bit)を組み合わせて実現する。
一般的に5つのインストラクションが必要。

例

int32_t mul_s32x2_to_s32(int32_t a, int32_t b)
{
    return a * b;
}

次のようにコンパイルされる

# $3 : a
# $4 : b
 
# aの上位ハーフワードとbの下位ハーフワードを乗算
mpyh    $6,$3,$4
 
# bの上位ハーフワードとaの下位ハーフワードを乗算
mpyh    $5,$4,$3
 
# aの下位ハーフワードとbの下位ハーフワードを符号無しで乗算
mpyu    $3,$3,$4
 
# 以上をすべて足し合わせる
# 32bitに収まることが前提なので上位ハーフワード同士の乗算は行わない
a       $2,$6,$5
a       $3,$2,$3
 
# リターン
bi      $0

LSはL1並に速いか？

load/store のレイテンシは6サイクル

ツールボックス

下から選んでください:

新しいページを作成する

ヘルプ / FAQ もご覧ください。

techsure @ ウィキ