200万网格并行算力测试(OpenFOAM版本)
-
@2019201300 i7只有两个内存通道,在正确的位置插两条就行。开不开小核影响不大,意思是bios开不开小核对峰值性能影响不大,很显然,你这种情况,并行数为8达到峰值性能,并行数设置成16算是误用,bios里开小核和用小核参与并行计算明显是两个概念,我相信你开了超线程,并行数设置成24,会更慢,这种大小核cpu并行数等于大核数量性能最好,小核的功能主要是在负载低的时候降低功耗。我看你测试结果很好了啊,用了虚拟机会慢一丢丢,很接近我的结果了。
-
CPU型号: Intel(R) Xeon(R) Platinum 8475B 系统:ubuntu 22.04 版本:openfoam10 内存:128G 16G 3200MHz*8 48 51 32 60 16 91 8 117 4 226 2 410 1 848
-
@tidedrinker 我之前也觉得可能是因为这个,但是事实上多插了两根内存条并没有改善现状。插满内存条的经费我现在也没有,只有先等等看以后能不能重新测个数据了。
-
@秋山结月 在 200万网格并行算力测试(OpenFOAM版本) 中说:
@tidedrinker 我之前也觉得可能是因为这个,但是事实上多插了两根内存条并没有改善现状。插满内存条的经费我现在也没有,只有先等等看以后能不能重新测个数据了。
4根内存条也不至于这么慢,插4根应该是每个三缓1根,我记得这个型号一共有4块三缓,8个核心共用一块。插4根内存,8核也应该在135s左右。没改善估计是位置插错了,内存通道插满,32核成绩应该在70s左右。
-
CPU型号:AMD EPYC 7R13 * 2 系统:linux系统(Linux Mint 21.2) OpenFOAM版本:OpenFOAM-6 内存:32G*16 DDR4 3200MHz 96 46.07 64 40.19 48 42.57 32 46.25 16 97.51 8 112.41 4 207.68 2 422.19
-
不同的OpenFOAM版本之间也有差别,虽然不大,而且看不出明显趋势。不过32核那个可能有问题,两次测试变化太大了。
CPU型号:AMD EPYC 7R13 * 2 系统:linux系统(Linux Mint 21.2) 内存:32G*16 DDR4 3200MHz
OpenFOAM版本:OpenFOAM-4.1 96 44.38 64 39.1 48 41.29 32 58.09 16 94.49 8 107.47 4 199.38
OpenFOAM版本:OpenFOAM-6(第二次测试) 96 45.39 64 40.25 48 42.29 32 60.87 16 100.31 8 112.86 4 207.55
OpenFOAM版本:OpenFOAM-8 96 42.68 64 43.3 48 42.14 32 57.55 16 92.04 8 111.63 4 209.84
OpenFOAM版本:OpenFOAM-10 96 42.5716 64 43.5094 48 42.5608 32 59.3897 16 91.1536 8 112.216 4 211.765
OpenFOAM版本:OpenFOAM-v2112 96 42.6 64 42.96 48 41.78 32 70.65 16 91.49 8 111.51 4 207.41
-
@tidedrinker 老兄设备多啊,不上7773X吗?更大的三缓也很关键
-
CPU型号:AMD Ryzen9 7900X3D
内存:16G*2 DDR5 6000MHz
OpenFOAM版本:OpenFOAM-11 WSL2
12 153.389
8 172.963
6 206.694
4 224.681
2 321.825
1 565.547 -
@AntiEntropieR 在 200万网格并行算力测试(OpenFOAM版本) 中说:
CPU型号:AMD Ryzen9 7900X3D
内存:16G*2 DDR5 6000MHz
OpenFOAM版本:OpenFOAM-11 WSL2
12 153.389
8 172.963
6 206.694
4 224.681
2 321.825
1 565.547又测了一次,快了一些
12 144.987
8 158.906
6 192.931
4 213.781
2 306.722
1 529.964 -
CPU型号:AMD EPYC 7C13 * 2 系统:linux系统(Linux Mint 20.3) OpenFOAM版本:OpenFOAM-6 内存:16G*16 DDR4 3200MHz 128 49.08 96 46.07 80 43.48 64 39.54 62/2 48 44.98 63/2 32 54.83 107/4 78/3 16 99.59
/2的就是两个算例一起跑的平均时间,/4就是四个一起跑的平均,看上去32×4的跑法更经济一点。但是具体的和网格量、计算设置有关,我用大概250w网格带VOF和动网格的测试,就是64×2更经济。
另外就是,好像AMD推荐的调优用处不大,包括SMT关不关区别很小。影响比较大的是NPS,我测试的结果是,NPS =4的话,128核最快比其他128核都快;NPS = 2的话,64核比其他64核都快。而且NPS2的64核比NPS4的128核快,比NPS4的64核快很多;但是NPS4的128核只比NPS2的128核快一点,一两秒的样子。
@heike256 大部分设备都不是我的,借来测一下;我倒是想搞7773X,甚至想搞9654,毕竟内存带宽大一倍,但是没钱,没钱是一切妥协和将就的根源。