CFD中文网

Joseph

@Joseph AMD EPYC™ 9684X这种官方钦定的CFD圣体，我一次都没见到过。你这个双路的平台是机架式还是塔式，花了多少钱？

我也很渴望一个9684X，1GB的L3缓存实在太棒了。可惜太贵了，希望五年十年之后能有大船靠岸，让我买到二手的玩一玩。

Joseph

@heike256 是塔式的，具体金额并不清除，但是4代霄龙成交价一般在2w左右，考虑主板和内存价格应该总共6~8w。如果是9684X会更贵，它好像3w一颗。
我觉得自己这个记录多少有点作弊，因为最佳记录出现在自己魔改的版本。我确实爆改了imcompressibleFluid，我没有改算法，但是我删掉了所有冗余的引用。

Joseph

补充一些测试结果的汇总：

core	CE(Clang)	CE(AOCC)	org-13(Clang)
128	47.6798	51.8597	50.0183
126	29.8865	27.8171	26.5493
64	23.0015	27.1637	25.642
32	36.471	36.4677	39.819
8	95.4218	102.379	91.7573

这里CE指的是我自己魔改的OpenFOAMCE（基于v13），org-13是基金会版本的v13。8月18日的测试结果与这个结果缺乏可比性，因为期间有过一次硬件更改和很多次系统升级。

Joseph

@Joseph 补充一个AOCC 5.0.0编译的测试结果：

cores	Wall time (s):
128	51.8597
126	27.8171
64	27.1637
32	36.4677
8	102.379

这个算例最佳的并行度基本在128~64之间，Clang在并行度太高时（128、126）有很明显的性能下降。AOCC的性能与clang差不多，但是并行度过高时（126）仍然没有性能下降，哪怕拉到128线程，也明显优于Clang。

Joseph

看起来这个算例不需要128线程，64线程已经接近最优了
系统：Ubuntu24（物理机）
CPU：9554双路（不开SMT，共128个物理线程）
OpenFOAM版本：v13
编译器：Clang 18.1.3

cores	Wall time (s):
128	155.71
126	46.3761
64	24.8692
32	40.1975
8	94.1739

为了能在v13运行，稍微改了controlDict、fvSolution和fvOptions

CFD中文网

Joseph

帖子