集群上并行测试OpenFOAM，并行效率并没有比单节点提升

李东岳

一个节点64核心：平均单步19.18s

五个节点320核心：平均单步7.1s

所以你期望的是有5倍的scale吧？5节点达到4s左右。

我在超算平台上测试过128核心，采用完全相同的计算设置，平均单步6.65s

这个比不了。硬件不一样。我们这样同样64核的计算速度都不一样。可能他们的CPU更暴力。不能这么比。你只能看你们自己这个机架式，能否达到你的scale预期。

我建议你这么跑，对比总时间，而不是平均每步的时间，比如你把这个表格填一下：

1500万，icoFoam
1节点64核100步，总共 ___ 秒
2节点128核100步，总共 ___ 秒
3节点192核100步，总共 ___ 秒
4节点256核100步，总共 ___ 秒
5节点320核100步，总共 ___ 秒

然后你看一下能否做到scale的线性。同样你还可以测试下：

1500万，icoFoam
1节点32核100步，总共 ___ 秒
2节点64核100步，总共 ___ 秒
3节点96核100步，总共 ___ 秒
4节点128核100步，总共 ___ 秒
5节点160核100步，总共 ___ 秒

看一下能否做到scale的线性。

另外你说的Fluent没问题。是什么没问题，能达到线性的scale，还事什么

sjlouie91

@李东岳
好的，谢谢李老师，我先测试一下。

sjlouie91

@lzf
好的，我试试。请问这个命令是会影响到并行效率吗？抱歉，我不太懂MPI相关命令

lzf

@sjlouie91 会的，这方面李老师这边测过，dapl参数是最快的，另外你可以试一下hpcx的并行库。

sjlouie91

@lzf
好的，感谢！

xpqiu

@sjlouie91

-genv FI_PROVIDER tcp

这一条表示你指定使用 tcp 网络通信，所以很可能你的节点间通信就没用到 infiniband。

建议先去掉 -genv FI_PROVIDER tcp ，这样mpi应该会默认选择一个可用且最快的选项。如果不行，那么参考
https://www.intel.com/content/www/us/en/develop/documentation/mpi-developer-guide-linux/top/running-applications/fabrics-control/ofi-providers-support.html
这里的说明选择一个跟你硬件匹配的 FI_PROVIDER。

李东岳

我在想他这面网卡设置这面，如果已经设定好了走infiniband，同样他还加这个参数-genv FI_PROVIDER tcp，这两个不是抵触了么？

sjlouie91

@李东岳
请问这种有问题吗？
-genv FI_PROVIDER mlx

xpqiu

@李东岳
也不是抵触，infiniband 网络和 tcp 网络是共存的，他这样设置，应该是显式指定使用 tcp 网络，而没有使用 infiniband，所以速度就慢了。

这个设置有的时候也是有用的，比如假设我有个工作站，没有 infiniband 也不需要，我只想单节点内的核之间通信。但是有的 mpi 它的 FI_PROVIDER 的默认值是 PSM2，这样的话如果不加参数，单节点并行也无法跑，加上 -genv FI_PROVIDER tcp 或者 -genv FI_PROVIDER shm 就可以正常跑了。

李东岳

@sjlouie91 在集群上并行测试OpenFOAM，并行效率并没有比单节点提升中说：

-genv FI_PROVIDER mlx

这个参数我没用过。像 @lzf 说的，你可以试下dapl，像 @xpqiu 说的，你可以试下把-genv FI_PROVIDER tcp去掉。

但是有的 mpi 它的 FI_PROVIDER 的默认值是 PSM2，这样的话如果不加参数，单节点并行也无法跑，加上 -genv FI_PROVIDER tcp 或者 -genv FI_PROVIDER shm 就可以正常跑了

还有这样的mpi

lzf

@sjlouie91 如果可以的话希望可以提供一个五节点跑满320核的benchmark结果

bestucan

@李东岳在集群上并行测试OpenFOAM，并行效率并没有比单节点提升中说：

估计他就是双倍来了

那就是相对速度了，自己跟自己比

@sjlouie91 这个：https://www.top500.org/project/linpack/ 专门测超算性能的。但是流体计算的效率，影响因素太多。用李老师网站上大家都用的算例比对更容易找着对比点。

还有一个方法，开始计算后观察系统各项指标，看看哪个满负荷，哪个就是瓶颈。https://github.com/cjbassi/gotop 这个是终端界面的系统监视器。看看运行算例的时候是 CPU ，还是硬盘读写，还是网络通信，还是内存是爆满的。可以对比 fluent 运行的时候的不同。找到瓶颈后再排查比较有目标。

sjlouie91

@李东岳李老师，您好。我按照您的建议进行了测试，但是每个节点跑满所有核时，在3个节点时还可以实现线性，但是5个节点反而变慢。
加速比.png
请问这种情况还有可能是并行哪里有问题呢？

sjlouie91

@lzf 你好，抱歉回复的晚。请问你指的结果是说最后计算时长吗？还是指的流场结果？
这个是我测试的加速比曲线和计算时长。如果有需要，我可以提供算例cavity文件
加速比.png

cavity算例的计算设置文件blockMeshDict, controlDict,fvSolution如下，fvSchemes采用tutorials中的设置：
blockMeshDict

controlDict

fvSolution

sjlouie91

@lzf 还有一个问题想请教一下，你们使用集群计算模块加载的除了intel和intel-mpi，是否还需要其他什么模块吗？
如果可能的话，能否私信告诉我一下你的联系方式方便沟通并行相关问题？

sjlouie91

@xpqiu 您好，感谢您的回复。
关于-genv FI_PROVIDER tcp，我测试过，必须得加上这个参数，否则没办法计算。至于shm:ofi，我发现好像是否添加这个参数对结果影响不大。

sjlouie91

@李东岳李老师您好，除了刚才发的OpenFOAM的测试性能以外，关于Fluent测试的效果是5个节点的加速比符合线性scale。

李东岳

-genv FI_PROVIDER tcp你这个去掉不能跑的话。你如何确定走的是infiniband，而不是以太网模式。我们这面跑openfoam不需要这个参数。我们之前测试也出现过你这种情况。后来我们换交换机硬件了。但目前我还不确定现在我们这5节点能到什么样，得下周能出个测试结果。另外，openfoam离散设置差异（比如GAMG那个），我个人感觉不会引起特别大的差异。不过你可以实测看看，我也不100%确定

@xpqiu 这位大佬之前好像测试过2048个核心

sjlouie91

@李东岳
应该走的是infiniband，我还试过更改-genv I_MPI_FABRICS shm:ofi为shm:dapl，但是提示只有shm:ofi和ofi两种。
此外，除了一个节点使用32核心，我还测试过1个节点使用48和56核心，我发现不知道有没有可能是计算瓶颈的问题，我只要是用到240核上，每步计算的时长就没法再减小了。

1节点64核100步，总共1851s
2节点128核100步，总共928s
3节点196核100步，总共553s
4节点256核100步，总共505s
5节点320核100步，总共557s

1节点32核100步，总共5946s
2节点64核100步，总共1863s
3节点96核100步，总共1163s
4节点128核100步，总共836s
5节点160核100步，总共616s

5节点240核100步，总共526s
5节点280核100步，总共567s

请问李老师你们测试采用的算例是什么？

李东岳

下面是你的数据：

5节点160核100步，总共616s
5节点240核100步，总共526s
5节点280核100步，总共567s
5节点320核100步，总共557s

怎么有个波动在里面。

@sjlouie91 就是我那个200万网格那个。后来加密到3000多万。我们团队那个老师最近组织博士生考试，没时间测。下一步测试要4月初了...

我猜测也有可能跟算例相关，你可以跑一下摩托车那个算例。simpleFoam里面motorbike那个，你把网格相关量调成4000万网格的算例。直接测试

5节点160核
5节点240核
5节点280核
5节点320核

我们下一步也要换成motorbike这个算例。我们他们外国人用这个比较多。

CFD中文网

集群上并行测试OpenFOAM，并行效率并没有比单节点提升