CentOSのバイナリATLASを使うとHT分もCPUをカウントしてしまうらしく,4 coresなのに8 threads使っている模様。とりあえずCore i7 3820+GTX780だとDGEMMで
Ref.BLAS < ATLAS < IMKL < cuBLAS == MAGMA 3.2(GFLOPS) < 20 < 101 < 176 == 176 で,Xeon E5 2620x2 + Tesla K20だと Ref.BLAS < ATLAS < IMKL < cuBLAS == MAGMA 2.5(GFLOPS) < 20? < 196 < 974 == 974 ってとこ。単精度もやっておかないとなぁ。