集群上并行测试OpenFOAM，并行效率并没有比单节点提升

lzf

命令怎么写的

sjlouie91

@李东岳
李老师，我是按照单节点64核，双节点128核，以此类推来测试的。目前主要测试的是空腔算例和我自己的LES算例。

空腔算例：1500万，icoFoam，我是一共运行了100步，平均计算每步运行时间。
一个节点64核心：平均单步19.18s
五个节点320核心：平均单步7.1s
可以看到并行加速比明显未达到预期。我在超算平台上测试过128核心，采用完全相同的计算设置，平均单步6.65s
LES算例，2000万，pisoFoam，同样运行了100个时间步。
这个算例我仅仅测试了256核心和320核心，因为我之前计算的时候采用的就是300核心左右。
我同时测试了每步跑满1000迭代步和最大迭代步设置为100迭代步的情况，以下是具体的数据：
五个节点320核心，最慢平均每步26s，最快平均每步9.2s
四个节点256核心，最慢平均每步29s，最快平均10.5s
作为参考，在超算平台上，同样的算例，336核心，平均每步5s左右。

所以很明显并行测试不达标，主要是因为我们在fluent里测试没有问题，主要问题就在于openFoam，所以目前不知道该怎么解决这个问题。

sjlouie91

@lzf
你好，请问指的是什么命令？是提交任务的命令吗？

lzf

@sjlouie91 ofi换成dapl

李东岳

一个节点64核心：平均单步19.18s

五个节点320核心：平均单步7.1s

所以你期望的是有5倍的scale吧？5节点达到4s左右。

我在超算平台上测试过128核心，采用完全相同的计算设置，平均单步6.65s

这个比不了。硬件不一样。我们这样同样64核的计算速度都不一样。可能他们的CPU更暴力。不能这么比。你只能看你们自己这个机架式，能否达到你的scale预期。

我建议你这么跑，对比总时间，而不是平均每步的时间，比如你把这个表格填一下：

1500万，icoFoam
1节点64核100步，总共 ___ 秒
2节点128核100步，总共 ___ 秒
3节点192核100步，总共 ___ 秒
4节点256核100步，总共 ___ 秒
5节点320核100步，总共 ___ 秒

然后你看一下能否做到scale的线性。同样你还可以测试下：

1500万，icoFoam
1节点32核100步，总共 ___ 秒
2节点64核100步，总共 ___ 秒
3节点96核100步，总共 ___ 秒
4节点128核100步，总共 ___ 秒
5节点160核100步，总共 ___ 秒

看一下能否做到scale的线性。

另外你说的Fluent没问题。是什么没问题，能达到线性的scale，还事什么

sjlouie91

@李东岳
好的，谢谢李老师，我先测试一下。

sjlouie91

@lzf
好的，我试试。请问这个命令是会影响到并行效率吗？抱歉，我不太懂MPI相关命令

lzf

@sjlouie91 会的，这方面李老师这边测过，dapl参数是最快的，另外你可以试一下hpcx的并行库。

sjlouie91

@lzf
好的，感谢！

xpqiu

@sjlouie91

-genv FI_PROVIDER tcp

这一条表示你指定使用 tcp 网络通信，所以很可能你的节点间通信就没用到 infiniband。

建议先去掉 -genv FI_PROVIDER tcp ，这样mpi应该会默认选择一个可用且最快的选项。如果不行，那么参考
https://www.intel.com/content/www/us/en/develop/documentation/mpi-developer-guide-linux/top/running-applications/fabrics-control/ofi-providers-support.html
这里的说明选择一个跟你硬件匹配的 FI_PROVIDER。

李东岳

我在想他这面网卡设置这面，如果已经设定好了走infiniband，同样他还加这个参数-genv FI_PROVIDER tcp，这两个不是抵触了么？

sjlouie91

@李东岳
请问这种有问题吗？
-genv FI_PROVIDER mlx

xpqiu

@李东岳
也不是抵触，infiniband 网络和 tcp 网络是共存的，他这样设置，应该是显式指定使用 tcp 网络，而没有使用 infiniband，所以速度就慢了。

这个设置有的时候也是有用的，比如假设我有个工作站，没有 infiniband 也不需要，我只想单节点内的核之间通信。但是有的 mpi 它的 FI_PROVIDER 的默认值是 PSM2，这样的话如果不加参数，单节点并行也无法跑，加上 -genv FI_PROVIDER tcp 或者 -genv FI_PROVIDER shm 就可以正常跑了。

李东岳

@sjlouie91 在集群上并行测试OpenFOAM，并行效率并没有比单节点提升中说：

-genv FI_PROVIDER mlx

这个参数我没用过。像 @lzf 说的，你可以试下dapl，像 @xpqiu 说的，你可以试下把-genv FI_PROVIDER tcp去掉。

但是有的 mpi 它的 FI_PROVIDER 的默认值是 PSM2，这样的话如果不加参数，单节点并行也无法跑，加上 -genv FI_PROVIDER tcp 或者 -genv FI_PROVIDER shm 就可以正常跑了

还有这样的mpi

lzf

@sjlouie91 如果可以的话希望可以提供一个五节点跑满320核的benchmark结果

bestucan

@李东岳在集群上并行测试OpenFOAM，并行效率并没有比单节点提升中说：

估计他就是双倍来了

那就是相对速度了，自己跟自己比

@sjlouie91 这个：https://www.top500.org/project/linpack/ 专门测超算性能的。但是流体计算的效率，影响因素太多。用李老师网站上大家都用的算例比对更容易找着对比点。

还有一个方法，开始计算后观察系统各项指标，看看哪个满负荷，哪个就是瓶颈。https://github.com/cjbassi/gotop 这个是终端界面的系统监视器。看看运行算例的时候是 CPU ，还是硬盘读写，还是网络通信，还是内存是爆满的。可以对比 fluent 运行的时候的不同。找到瓶颈后再排查比较有目标。

sjlouie91

@李东岳李老师，您好。我按照您的建议进行了测试，但是每个节点跑满所有核时，在3个节点时还可以实现线性，但是5个节点反而变慢。
加速比.png
请问这种情况还有可能是并行哪里有问题呢？

sjlouie91

@lzf 你好，抱歉回复的晚。请问你指的结果是说最后计算时长吗？还是指的流场结果？
这个是我测试的加速比曲线和计算时长。如果有需要，我可以提供算例cavity文件
加速比.png

cavity算例的计算设置文件blockMeshDict, controlDict,fvSolution如下，fvSchemes采用tutorials中的设置：
blockMeshDict

controlDict

fvSolution

sjlouie91

@lzf 还有一个问题想请教一下，你们使用集群计算模块加载的除了intel和intel-mpi，是否还需要其他什么模块吗？
如果可能的话，能否私信告诉我一下你的联系方式方便沟通并行相关问题？

sjlouie91

@xpqiu 您好，感谢您的回复。
关于-genv FI_PROVIDER tcp，我测试过，必须得加上这个参数，否则没办法计算。至于shm:ofi，我发现好像是否添加这个参数对结果影响不大。

CFD中文网

集群上并行测试OpenFOAM，并行效率并没有比单节点提升