200万网格并行算力测试（OpenFOAM版本）

shawJ

@heike256 是的，而且价格优美，7302*2+H11dsi板U套也是3K多，性价比之王

文昌鱼

龙芯平台的测试数据，以供参考。

CPU型号：Loongson-3A5000LL
系统：Loongnix GNU/Linux 20 (DaoXiangHu)
内核：Linux 4.19.0-19-loongson-3 (loongarch64)
OpenFOAM版本：OpenFOAM-v2206
4 902.14
2 1172.93
1 1993.66

linux内核 6.0版本之后会有原生的loongarch架构支持，等搞定系统以后再测一版。

文昌鱼

@文昌鱼内核升级到6.3，编译器更新到gcc-13之后基本没有提升，硬件极限到此为止了，软件优化几乎没有效果。

李东岳

@文昌鱼多谢反馈！你们这一套能换U不，如果能换U，我可以给你们找一套更屌的U，费用我来出，然后你们测试测试？

hurricane007

@文昌鱼这个好！！！

CFDngu

CPU型号：AMD EPYC 7763 64-Core （双路）
系统：ubuntu18.04
内存：256G ddr4
OpenFOAM版本：OpenFOAM v2006
128 125.5
64 105.71
32 109.28
16 124.35
8 171.75
4 276.83
2 517.43
1 887.79

超线程已关，结果不怎么样，难不成我这个是假7763？请问如何优化？（刚组的机器，没多长时间）

李东岳

@CFDngu 不管是7763还是7742, 128核都不是最优的，我这面测试80核左右会有最优性能，你试试

heike256

@CFDngu 买的是二手吗？9004系列24通道DDR5内存，差不多能用到128核

heike256

@李东岳李老师啥时候推DDR5的加特林？

CFDngu

@heike256 不是二手，发现原因了，内存槽没插满。。

CFDngu

@李东岳之前慢的原因是没有插满内存，插满后试了一下，确实是80核左右最快。

结果如下：
128 42.75
80 37.13
64 43.1
32 71.04
16 93.86
8 118.65
4 222.97
2 385.11
1 799.57

李东岳

@heike256 目前还没法测试。加速比要调试。目前还没有单。没单的时候自己测试加速比，这10台机器直接压手里了。

heike256

@CFDngu 新的花了多少钱？

hurricane007

@CFDngu 我在想是不是这个多少核的加速比最大和网格数量也有关。感觉是这个网格数量下，80核恰好能用满内存带宽。之前东岳兄提到过单路32核最快，会不会也是测试的网格数量某种程度恰好吃满内存带宽了，所以单个刀片加核数就卡在通讯那儿了……

CFDngu

@heike256 5万

李东岳

我测试3200万、800万网格，32核以上非常不线性。64核相对32核的性能提升基本就是个1.2倍。远远达不到2倍。这种intranode的scale就是这样了。64核的机器还可以64核最快。超过64核的机器，基本就是80核最快了。另外那个128核心的7742，性能还不如核心少的7502，这个U我都觉得烫手，测试完了1天就退回供应商了。epyc3代相对还好。但毕竟有老铁买，我不好评价。在epyc4代的型号，这个问题也很严重。一些大教授不差钱一窝蜂的上epyc4代256核的机器，后来实测160核性能最强。然后windows-fluent彻底卡死，epyc3代算3分钟的，windows-fluent上epyc4代要卡3小时。所以我认为多核心的机器，机架式是最终解决方案。

最完美的就是单机32核甚至28核，然后8个节点做到256核。这个性能非常强。远超单机256核数倍。

heike256

@李东岳 epyc四代还没出256核的型号，顶配是9654，双路也就192个物理核心，QS版本也就发行价三折，这代看起来最合适OpenFOAM的9354，市面上QS版不多，正式版的价格比9654QS还贵。不得不说，DDR5内存真香，但主板还是太贵，主要是PCIe5.0的成本太高，OpenFOAM还用不到。

heike256

@李东岳 @CFDngu 水了这么多楼，这次发个正经的。
双路Epyc ES 100-0000000894-04（俗称9654ES，步进b0），内存DDR5 4800 16G×24，硬盘三星980Pro
OpenFOAM v2112 进行了非常多的fine tunning，但是算例文件没改过，无脑Allrun；宿主操作系统是Windows server 2022，虚拟机软件是hyper-v，客户机操作系统是Ubuntu 20.04。

测试结果如下：
cores Wall time (s):
192 57.82
190 48.26
128 35.09
64 45.29
32 72.56
16 134.86
8 167.85
4 259.53
2 569.34
1 928.2

峰值性能35 s，以后请叫我榜一大哥。
这个记录应该不难破，抄这个配置，裸金属直接安装Ubuntu 20.04就能破。

李东岳

@heike256 感谢分享。35绝对榜一大哥了老铁！

最近这一直没更新，我今天更新一下所有新纪录

另外2000万网格也可以试一下，直接decompose，然后simplefoam

https://pan.baidu.com/s/1kdw28XFvcJ7RdKntpESCNg?pwd=13t6

heike256

@李东岳我先测的2000w网格，结果不敢私藏：

测试了CFD-China的2000万网格算例2000个时间步的版本，并进行了性能优化，优化后的性能表现也令人满意。优化前，windows hyper-v 集成工具未启用，simpleFoam求解器运行耗时4119 s（Clock Time，下同），windows 任务管理器显示的CPU占用率约70%，说明未能充分发挥CPU性能，受到hyper-v资源分配的限制；启动hyper-v 集成工具后，宿主机（windows）和虚拟机（ubuntu）之间有了通讯，windows hyper-v可以更好地分配资源，这种条件下，simpleFoam求解器运行耗时4024 s，提高2.3%；进一步地，将384个逻辑内核全部分配给虚拟机，但计算时仍然保持192并行数，计算时长减少到3358 s，再提高16.5%。服务器在机房正式上架后，优化BIOS中的CPU设置，关闭超线程，虚拟机的核心数和物理机保持一致为192核，使用192核并行计算，耗时减小到3244 s，再提高3.4%。根据AMD 9004系列处理器架构设计白皮书，该处理器Zen 4架构多个核心共享L3 Cache，每个CPU有12个L3 Cache，因此MPI并行计算的瓶颈可能出现在多个进程争夺L3 Cache，因而，适当降低MPI并行数，并添加-map-by L3cache 选项，MPI并行数为180时，耗时 2824 s；并行数为168时，耗时2909 s。进行MPI运行优化后，最好成绩为2824 s，提高12.9%。

以上优化仅仅是调整了硬件和软件的使用方式，还未涉及开发过程中的优化，计算用时从4119 s，降低到2824 s，性能提高31.4%。进一步的编译器优化还在进行。

首发于地表最强处理器的工程样品，跑OpenFOAM效果如何

CFD中文网

200万网格并行算力测试（OpenFOAM版本）