集群上并行测试OpenFOAM，并行效率并没有比单节点提升

李东岳

下面是你的数据：

5节点160核100步，总共616s
5节点240核100步，总共526s
5节点280核100步，总共567s
5节点320核100步，总共557s

怎么有个波动在里面。

@sjlouie91 就是我那个200万网格那个。后来加密到3000多万。我们团队那个老师最近组织博士生考试，没时间测。下一步测试要4月初了...

我猜测也有可能跟算例相关，你可以跑一下摩托车那个算例。simpleFoam里面motorbike那个，你把网格相关量调成4000万网格的算例。直接测试

5节点160核
5节点240核
5节点280核
5节点320核

我们下一步也要换成motorbike这个算例。我们他们外国人用这个比较多。

Number44

@sjlouie91
从你这个结果看，scaling看上去还算线性，线性区间应该在256核前一点，峰值点在5万+网格/核，不算好，也不算特别差，峰值点和集群本身的性能有关，CPU，内存之类的，但至强系列的CPU应该没那么差。
另外，不同的矩阵迭代算法的scaling不一样，CG类的scaling看上去很好，但绝对速度就那样，AMG类的scaling一般，但是真的快。

sjlouie91

@number44
感谢你的建议。如果不是CPU的问题的话，有没有可能瓶颈在硬盘读取上？
我还有个疑问，我之前在LES算例上测试过GAMG求解器，一般来说GAMG计算更快，但是我不清楚是我设置有问题还是其他别的什么原因，我在使用GAMG的时候计算异常缓慢。
这个是我之前的计算设置，请问是否有针对这个算法的较优的设置参数？

sjlouie91

@李东岳
您好李老师，针对这个波动，我之前也发现了，但是我后续又计算过一次，最终320核计算用时577s。总之，就是在240核以上基本上就不太有效果了。
针对您提到的这两个算例，我测试一下。

Number44

@sjlouie91
硬盘的读写只有刚开始和写结果的时候进行，迭代过程是不做硬盘读写的，除非频繁大量进行结果的存储，不然一般硬盘不太影响计算性能，更多受CPU的cache和内存影响。
至于GAMG的参数，我选择抄
PETSc4FOAM: a library to plug-in PETSc into the OpenFOAM framework
里面提到的。

李东岳

不知道后来楼主怎么样了

Caijinjin

@李东岳在集群上并行测试OpenFOAM，并行效率并没有比单节点提升中说：

-genv FI_PROVIDER tcp你这个去掉不能跑的话。你如何确定走的是infiniband，而不是以太网模式。我们这面跑openfoam不需要这个参数。我们之前测试也出现过你这种情况。后来我们换交换机硬件了。但目前我还不确定现在我们这5节点能到什么样，得下周能出个测试结果。另外，openfoam离散设置差异（比如GAMG那个），我个人感觉不会引起特别大的差异。不过你可以实测看看，我也不100%确定

@xpqiu 这位大佬之前好像测试过2048个核心

老师，想问一下，用openmpi在自己组里面的集群上用pbs跨节点并行（10g以太网交换机）命令用的mpirun --mca btl_tcp_if_include <ip地址> -np reactingTwoPhaseEulerFoam -parallel，运行的时候发现计算的节点上cpu的用户进程占比us只有50-60%，系统进程占比sy有40-50%，这个问题有没有什么好的解决办法？

李东岳

才看到这个回复，首先，这个看起来不是正常的。CPU用满了应该是100%。能想到的是，能不能是系统被黑了有后台程序

Caijinjin

@李东岳李老师，我们组集群是新买的，应该不太可能是被黑了，除非是大厂他们给加了限制。现在我导给换了100G的IB交换机，就是运行案例的时候，它虽然显示是在run的，但是log文件里面没有实际的计算结果。我看了调度系统的日志说是：
Open MPI accepted a TCP connection from what appears to be an another Open MPI process but cannot find a corresponding process entry for that peer.
暂时还在寻找原因。

李东岳

@Caijinjin 我说的被黑了的意思是，系统被黑了？不是供应商黑了你们那种。我这面有过服务器被黑了，后面有挖矿程序。

Caijinjin

@李东岳老师，是这样的，这种现象在单个节点跑案例的时候是没有的，CPU是接近满负荷在运算的，但是一到多个节点并行就出现。
现在我们换了IB交换机之后多节点还没跑起来过。。。

李东岳

@Caijinjin 如果可以提供下述信息：CPU型号、节点数、操作系统、价格这些参数（如果不方便公开，可以发我邮箱），我可以远程给你向日葵看一下。另外，你们为什么换IB交换机？我看你们去年6月份买的集群，这半年一直没用么

CFD中文网

集群上并行测试OpenFOAM，并行效率并没有比单节点提升