@heike256 在 200万网格并行算力测试(OpenFOAM版本) 中说:
@Joseph AMD EPYC™ 9684X这种官方钦定的CFD圣体,我一次都没见到过。你这个双路的平台是机架式还是塔式,花了多少钱?
我也很渴望一个9684X,1GB的L3缓存实在太棒了。可惜太贵了,希望五年十年之后能有大船靠岸,让我买到二手的玩一玩。
@heike256 在 200万网格并行算力测试(OpenFOAM版本) 中说:
@Joseph AMD EPYC™ 9684X这种官方钦定的CFD圣体,我一次都没见到过。你这个双路的平台是机架式还是塔式,花了多少钱?
我也很渴望一个9684X,1GB的L3缓存实在太棒了。可惜太贵了,希望五年十年之后能有大船靠岸,让我买到二手的玩一玩。
@heike256 是塔式的,具体金额并不清除,但是4代霄龙成交价一般在2w左右,考虑主板和内存价格应该总共6~8w。如果是9684X会更贵,它好像3w一颗。
我觉得自己这个记录多少有点作弊,因为最佳记录出现在自己魔改的版本。我确实爆改了imcompressibleFluid,我没有改算法,但是我删掉了所有冗余的引用。
补充一些测试结果的汇总:
core | CE(Clang) | CE(AOCC) | org-13(Clang) |
---|---|---|---|
128 | 47.6798 | 51.8597 | 50.0183 |
126 | 29.8865 | 27.8171 | 26.5493 |
64 | 23.0015 | 27.1637 | 25.642 |
32 | 36.471 | 36.4677 | 39.819 |
8 | 95.4218 | 102.379 | 91.7573 |
这里CE指的是我自己魔改的OpenFOAMCE(基于v13),org-13是基金会版本的v13。8月18日的测试结果与这个结果缺乏可比性,因为期间有过一次硬件更改和很多次系统升级。
@Joseph 补充一个AOCC 5.0.0编译的测试结果:
cores | Wall time (s): |
---|---|
128 | 51.8597 |
126 | 27.8171 |
64 | 27.1637 |
32 | 36.4677 |
8 | 102.379 |
这个算例最佳的并行度基本在128~64之间,Clang在并行度太高时(128、126)有很明显的性能下降。AOCC的性能与clang差不多,但是并行度过高时(126)仍然没有性能下降,哪怕拉到128线程,也明显优于Clang。
看起来这个算例不需要128线程,64线程已经接近最优了
系统:Ubuntu24(物理机)
CPU:9554双路(不开SMT,共128个物理线程)
OpenFOAM版本:v13
编译器:Clang 18.1.3
cores | Wall time (s): |
---|---|
128 | 155.71 |
126 | 46.3761 |
64 | 24.8692 |
32 | 40.1975 |
8 | 94.1739 |
为了能在v13运行,稍微改了controlDict、fvSolution和fvOptions