疎行列の章を無理やり終わらせて,その後のGPUの章にcuSPARSEの説明らしき物を入れ,最終章を除いてはとりあえず入れるべき要素は全部突っ込んでみた。これから全章眺めて攻勢を一からやり直し。土日である程度目算が立つかなぁ・・・立つといいなぁ・・・頑張ろう。
今のところA4用紙で103ページ。まぁせいぜい120ページ程度で収まってくれるとありがたいがさてさて?
Enjoy our world with numerical computations!
「LAPACK入門(仮)」執筆のためのメモ書き&広報ツール&バグ出し
疎行列の章を無理やり終わらせて,その後のGPUの章にcuSPARSEの説明らしき物を入れ,最終章を除いてはとりあえず入れるべき要素は全部突っ込んでみた。これから全章眺めて攻勢を一からやり直し。土日である程度目算が立つかなぁ・・・立つといいなぁ・・・頑張ろう。
今のところA4用紙で103ページ。まぁせいぜい120ページ程度で収まってくれるとありがたいがさてさて?
倍精度BiCGSTABとJacobi反復法の両方で収束し,かつ非対称な実行列で馬鹿でかいものが望ましい・・・と探していたらなかなか見つからない。今のところt2d_q4(9801×9801)ぐらい。しかもこれは収束が早すぎて,cuSPARSE版のBiCGSTABが遅い。まぁ計算時間そのものは結構いい線行っているとは思うが,GPUとのやり取りの時間がこう大次元になると馬鹿にならないということだと理解。この辺りももう少し調べないとなぁ。
しかし10000×10000を超える問題を見ていると,条件数が10^14以上の問題がザラにあるなと今更ながら気が付いた。4倍精度で収束すればいいけど,モノによっては8倍精度以上が必要な問題も結構ありそう。久々に多倍長COO SpMVもいじってみるかなぁ・・・ってまた別テーマに走りそうで怖い。人手があればいくらでもやってもらいたい研究(ベンチマーク)テーマはあるんだけどねぇ。
明日は残差のグラフと計算時間の詳細を詰めて第5章を終わらせ・・・たい(弱気)。
Jacobi反復法とBiCGSTAB法のアルゴリズムの追記・・・したところで計算しないといかんことに気が付いた。うわ~,IMKLとcuSPARSEとMAGMAで計算時間と精度と反復回数のグラフがいるじゃん!(今頃気が付くな) 頑張ろう!(ホントか?)
ふ~,さてSparse BLASみたいなlegacyも解説した方がいいのかなぁ? Math KernelとcuSPARSE,magmaの機能の説明だけでいいような気もしている。