Skip to content
  • 最新
  • 版块
  • 东岳流体
  • 随机看[请狂点我]
皮肤
  • Light
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • Dark
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
CFD中文网

CFD中文网

  1. CFD中文网
  2. OpenFOAM
  3. 集群上并行测试OpenFOAM,并行效率并没有比单节点提升

集群上并行测试OpenFOAM,并行效率并没有比单节点提升

已定时 已固定 已锁定 已移动 OpenFOAM
42 帖子 7 发布者 29.8k 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • L 离线
    L 离线
    lzf
    在 中回复了 sjlouie91 最后由 编辑
    #11

    @sjlouie91 ofi换成dapl

    S 1 条回复 最后回复
  • 李东岳李 离线
    李东岳李 离线
    李东岳 管理员
    写于 最后由 编辑
    #12

    一个节点64核心:平均单步19.18s

    五个节点320核心:平均单步7.1s

    所以你期望的是有5倍的scale吧?5节点达到4s左右。

    我在超算平台上测试过128核心,采用完全相同的计算设置,平均单步6.65s

    这个比不了。硬件不一样。我们这样同样64核的计算速度都不一样。可能他们的CPU更暴力。不能这么比。你只能看你们自己这个机架式,能否达到你的scale预期。

    我建议你这么跑,对比总时间,而不是平均每步的时间,比如你把这个表格填一下:

    1500万,icoFoam
    1节点64核100步,总共 ___ 秒
    2节点128核100步,总共 ___ 秒
    3节点192核100步,总共 ___ 秒
    4节点256核100步,总共 ___ 秒
    5节点320核100步,总共 ___ 秒
    

    然后你看一下能否做到scale的线性。同样你还可以测试下:

    1500万,icoFoam
    1节点32核100步,总共 ___ 秒
    2节点64核100步,总共 ___ 秒
    3节点96核100步,总共 ___ 秒
    4节点128核100步,总共 ___ 秒
    5节点160核100步,总共 ___ 秒
    

    看一下能否做到scale的线性。

    另外你说的Fluent没问题。是什么没问题,能达到线性的scale,还事什么

    http://dyfluid.com/index.html
    需要帮助debug算例的看这个 https://cfd-china.com/topic/8018

    S 3 条回复 最后回复
  • S 离线
    S 离线
    sjlouie91
    在 中回复了 李东岳 最后由 编辑
    #13

    @李东岳
    好的,谢谢李老师,我先测试一下。

    1 条回复 最后回复
  • S 离线
    S 离线
    sjlouie91
    在 中回复了 lzf 最后由 编辑
    #14

    @lzf
    好的,我试试。请问这个命令是会影响到并行效率吗?抱歉,我不太懂MPI相关命令

    L 2 条回复 最后回复
  • L 离线
    L 离线
    lzf
    在 中回复了 sjlouie91 最后由 编辑
    #15

    @sjlouie91 会的,这方面李老师这边测过,dapl参数是最快的,另外你可以试一下hpcx的并行库。

    S 2 条回复 最后回复
  • S 离线
    S 离线
    sjlouie91
    在 中回复了 lzf 最后由 编辑
    #16

    @lzf
    好的,感谢!

    1 条回复 最后回复
  • X 在线
    X 在线
    xpqiu 超神
    在 中回复了 sjlouie91 最后由 编辑
    #17

    @sjlouie91

    -genv FI_PROVIDER tcp

    这一条表示你指定使用 tcp 网络通信,所以很可能你的节点间通信就没用到 infiniband。

    建议先去掉 -genv FI_PROVIDER tcp ,这样mpi应该会默认选择一个可用且最快的选项。如果不行,那么参考
    https://www.intel.com/content/www/us/en/develop/documentation/mpi-developer-guide-linux/top/running-applications/fabrics-control/ofi-providers-support.html
    这里的说明选择一个跟你硬件匹配的 FI_PROVIDER。

    李东岳李 1 条回复 最后回复
  • 李东岳李 离线
    李东岳李 离线
    李东岳 管理员
    在 中回复了 xpqiu 最后由 编辑
    #18

    我在想他这面网卡设置这面,如果已经设定好了走infiniband,同样他还加这个参数-genv FI_PROVIDER tcp,这两个不是抵触了么?

    http://dyfluid.com/index.html
    需要帮助debug算例的看这个 https://cfd-china.com/topic/8018

    S X 2 条回复 最后回复
  • S 离线
    S 离线
    sjlouie91
    在 中回复了 李东岳 最后由 编辑
    #19

    @李东岳
    请问这种有问题吗?
    -genv FI_PROVIDER mlx

    李东岳李 1 条回复 最后回复
  • X 在线
    X 在线
    xpqiu 超神
    在 中回复了 李东岳 最后由 编辑
    #20

    @李东岳
    也不是抵触,infiniband 网络和 tcp 网络是共存的,他这样设置,应该是显式指定使用 tcp 网络,而没有使用 infiniband,所以速度就慢了。

    这个设置有的时候也是有用的,比如假设我有个工作站,没有 infiniband 也不需要,我只想单节点内的核之间通信。但是有的 mpi 它的 FI_PROVIDER 的默认值是 PSM2,这样的话如果不加参数,单节点并行也无法跑,加上 -genv FI_PROVIDER tcp 或者 -genv FI_PROVIDER shm 就可以正常跑了。

    S 1 条回复 最后回复
  • 李东岳李 离线
    李东岳李 离线
    李东岳 管理员
    在 中回复了 sjlouie91 最后由 编辑
    #21

    @sjlouie91 在 集群上并行测试OpenFOAM,并行效率并没有比单节点提升 中说:

    -genv FI_PROVIDER mlx

    这个参数我没用过。像 @lzf 说的,你可以试下dapl,像 @xpqiu 说的,你可以试下把-genv FI_PROVIDER tcp去掉。

    但是有的 mpi 它的 FI_PROVIDER 的默认值是 PSM2,这样的话如果不加参数,单节点并行也无法跑,加上 -genv FI_PROVIDER tcp 或者 -genv FI_PROVIDER shm 就可以正常跑了

    还有这样的mpi

    http://dyfluid.com/index.html
    需要帮助debug算例的看这个 https://cfd-china.com/topic/8018

    1 条回复 最后回复
  • L 离线
    L 离线
    lzf
    在 中回复了 sjlouie91 最后由 编辑
    #22

    @sjlouie91 如果可以的话希望可以提供一个五节点跑满320核的benchmark结果

    1 条回复 最后回复
  • bestucanB 离线
    bestucanB 离线
    bestucan 版主 大神
    写于 最后由 编辑
    #23

    @李东岳 在 集群上并行测试OpenFOAM,并行效率并没有比单节点提升 中说:

    估计他就是双倍来了

    那就是相对速度了,自己跟自己比:jingya:

    @sjlouie91 这个:https://www.top500.org/project/linpack/ 专门测超算性能的。但是流体计算的效率,影响因素太多。用李老师网站上大家都用的算例比对更容易找着对比点。

    还有一个方法,开始计算后观察系统各项指标,看看哪个满负荷,哪个就是瓶颈。https://github.com/cjbassi/gotop 这个是终端界面的系统监视器。看看运行算例的时候是 CPU ,还是硬盘读写,还是网络通信,还是内存是爆满的。可以对比 fluent 运行的时候的不同。找到瓶颈后再排查比较有目标。

    滚来滚去……~(~o ̄▽ ̄)~o 滚来滚去都不能让大家看出来我不是老师么 O_o

    异步沟通方式(《posting style》from wiki)(下载后打开):
    https://www.jianguoyun.com/p/Dc52X2sQsLv2BRiqnKYD
    提问的智慧(github在gitee的镜像):
    https://gitee.com/bestucan/How-To-Ask-Questions-The-Smart-Way

    1 条回复 最后回复
  • S 离线
    S 离线
    sjlouie91
    在 中回复了 李东岳 最后由 编辑
    #24

    @李东岳 李老师,您好。我按照您的建议进行了测试,但是每个节点跑满所有核时,在3个节点时还可以实现线性,但是5个节点反而变慢。test.png
    加速比.png
    请问这种情况还有可能是并行哪里有问题呢?

    1 条回复 最后回复
  • S 离线
    S 离线
    sjlouie91
    写于 最后由 编辑
    #25

    @lzf 你好,抱歉回复的晚。请问你指的结果是说最后计算时长吗?还是指的流场结果?
    这个是我测试的加速比曲线和计算时长。如果有需要,我可以提供算例cavity文件
    加速比.png
    test.png
    cavity算例的计算设置文件blockMeshDict, controlDict,fvSolution如下,fvSchemes采用tutorials中的设置:
    blockMeshDict
    blockMesh.png
    controlDict
    controlDict.png
    fvSolution
    fvSolution.png

    1 条回复 最后回复
  • S 离线
    S 离线
    sjlouie91
    在 中回复了 lzf 最后由 编辑
    #26

    @lzf 还有一个问题想请教一下,你们使用集群计算模块加载的除了intel和intel-mpi,是否还需要其他什么模块吗?
    如果可能的话,能否私信告诉我一下你的联系方式方便沟通并行相关问题?

    1 条回复 最后回复
  • S 离线
    S 离线
    sjlouie91
    在 中回复了 xpqiu 最后由 编辑
    #27

    @xpqiu 您好,感谢您的回复。
    关于-genv FI_PROVIDER tcp,我测试过,必须得加上这个参数,否则没办法计算。至于shm:ofi,我发现好像是否添加这个参数对结果影响不大。

    1 条回复 最后回复
  • S 离线
    S 离线
    sjlouie91
    在 中回复了 李东岳 最后由 编辑
    #28

    @李东岳 李老师您好,除了刚才发的OpenFOAM的测试性能以外,关于Fluent测试的效果是5个节点的加速比符合线性scale。

    1 条回复 最后回复
  • 李东岳李 离线
    李东岳李 离线
    李东岳 管理员
    写于 最后由 李东岳 编辑
    #29

    -genv FI_PROVIDER tcp你这个去掉不能跑的话。你如何确定走的是infiniband,而不是以太网模式。我们这面跑openfoam不需要这个参数。我们之前测试也出现过你这种情况。后来我们换交换机硬件了。但目前我还不确定现在我们这5节点能到什么样,得下周能出个测试结果。另外,openfoam离散设置差异(比如GAMG那个),我个人感觉不会引起特别大的差异。不过你可以实测看看,我也不100%确定

    @xpqiu 这位大佬之前好像测试过2048个核心 :mianmo:

    http://dyfluid.com/index.html
    需要帮助debug算例的看这个 https://cfd-china.com/topic/8018

    S C 2 条回复 最后回复
  • S 离线
    S 离线
    sjlouie91
    在 中回复了 李东岳 最后由 sjlouie91 编辑
    #30

    @李东岳
    应该走的是infiniband,我还试过更改-genv I_MPI_FABRICS shm:ofi为shm:dapl,但是提示只有shm:ofi和ofi两种。
    此外,除了一个节点使用32核心,我还测试过1个节点使用48和56核心,我发现不知道有没有可能是计算瓶颈的问题,我只要是用到240核上,每步计算的时长就没法再减小了。

    1节点64核100步,总共1851s
    2节点128核100步,总共928s
    3节点196核100步,总共553s
    4节点256核100步,总共505s
    5节点320核100步,总共557s
    
    1节点32核100步,总共5946s
    2节点64核100步,总共1863s
    3节点96核100步,总共1163s
    4节点128核100步,总共836s
    5节点160核100步,总共616s
    
    5节点240核100步,总共526s
    5节点280核100步,总共567s
    

    请问李老师你们测试采用的算例是什么?

    李东岳李 Number44N 2 条回复 最后回复

  • 登录

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 最新
  • 版块
  • 东岳流体
  • 随机看[请狂点我]