Skip to content
  • 最新
  • 版块
  • 东岳流体
  • 随机看[请狂点我]
皮肤
  • Light
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • Dark
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
CFD中文网

CFD中文网

  1. CFD中文网
  2. OpenFOAM
  3. 服务器卡死关机重启后不能并行

服务器卡死关机重启后不能并行

已定时 已固定 已锁定 已移动 OpenFOAM
5 帖子 2 发布者 2.5k 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • Y 离线
    Y 离线
    YuPeng
    写于 最后由 编辑
    #1

    各位前辈,服务器是一个双核的机器,今天卡住了,重启后发现并行不能算了,之前卡死是因为重构并行数据的时候用cfdonline的那个方法的时候核数设置多了,然后就卡住了,算例的报错文件如下

    [huiwei-Super-Server:13717] *** Process received signal ***
    [huiwei-Super-Server:13717] Signal: Segmentation fault (11)
    [huiwei-Super-Server:13717] Signal code:  (128)
    [huiwei-Super-Server:13717] Failing at address: (nil)
    [huiwei-Super-Server:13718] *** Process received signal ***
    [huiwei-Super-Server:13718] Signal: Segmentation fault (11)
    [huiwei-Super-Server:13718] Signal code:  (128)
    [huiwei-Super-Server:13718] Failing at address: (nil)
    [huiwei-Super-Server:13718] [ 0] /lib/x86_64-linux-gnu/libpthread.so.0(+0x12980)[0x7f800f190980]
    [huiwei-Super-Server:13718] [ 1] /usr/lib/x86_64-linux-gnu/openmpi/lib/openmpi/mca_pmix_pmix112.so(PMIx_Init+0x13f)[0x7f80069e7d3f]
    [huiwei-Super-Server:13718] [ 2] /usr/lib/x86_64-linux-gnu/openmpi/lib/openmpi/mca_pmix_pmix112.so(pmix1_client_init+0x75)[0x7f80069bbcb5]
    [huiwei-Super-Server:13718] [ 3] /usr/lib/x86_64-linux-gnu/openmpi/lib/openmpi/mca_ess_singleton.so(+0x2474)[0x7f8007433474]
    [huiwei-Super-Server:13718] [ 4] /usr/lib/x86_64-linux-gnu/libopen-rte.so.20(orte_init+0x22e)[0x7f8008fe91de]
    [huiwei-Super-Server:13718] [ 5] /usr/lib/x86_64-linux-gnu/libmpi.so.20(ompi_mpi_init+0x30e)[0x7f800a56027e]
    [huiwei-Super-Server:13718] [ 6] /usr/lib/x86_64-linux-gnu/libmpi.so.20(PMPI_Init_thread+0x45)[0x7f800a581405]
    [huiwei-Super-Server:13718] [ 7] /usr/lib/openfoam/openfoam2306/platforms/linux64GccDPInt32Opt/lib/sys-openmpi/libPstream.so(_ZN4Foam8UPstream4initERiRPPcb+0x98)[0x7f800eb6c478]
    [huiwei-Super-Server:13718] [ 8] [huiwei-Super-Server:13717] [ 0] /lib/x86_64-linux-gnu/libpthread.so.0(+0x12980)[0x7f7752fee980]
    [huiwei-Super-Server:13717] [ 1] /usr/lib/x86_64-linux-gnu/openmpi/lib/openmpi/mca_pmix_pmix112.so(PMIx_Init+0x13f)[0x7f774a845d3f]
    [huiwei-Super-Server:13717] [ 2] /usr/lib/x86_64-linux-gnu/openmpi/lib/openmpi/mca_pmix_pmix112.so(pmix1_client_init+0x75)[0x7f774a819cb5]
    [huiwei-Super-Server:13717] [ 3] /usr/lib/x86_64-linux-gnu/openmpi/lib/openmpi/mca_ess_singleton.so(+0x2474)[0x7f774b291474]
    [huiwei-Super-Server:13717] [ 4] /usr/lib/x86_64-linux-gnu/libopen-rte.so.20(orte_init+0x22e)[0x7f774ce471de]
    [huiwei-Super-Server:13717] [ 5] /usr/lib/x86_64-linux-gnu/libmpi.so.20(ompi_mpi_init+0x30e)[0x7f774e3be27e]
    [huiwei-Super-Server:13717] [ 6] /usr/lib/x86_64-linux-gnu/libmpi.so.20(PMPI_Init_thread+0x45)[0x7f774e3df405]
    [huiwei-Super-Server:13717] [ 7] /usr/lib/openfoam/openfoam2306/platforms/linux64GccDPInt32Opt/lib/sys-openmpi/libPstream.so(_ZN4Foam8UPstream4initERiRPPcb+0x98)[0x7f77529ca478]
    [huiwei-Super-Server:13717] [ 8] /usr/lib/openfoam/openfoam2306/platforms/linux64GccDPInt32Opt/lib/libOpenFOAM.so(_ZN4Foam7argListC1ERiRPPcbbb+0x310)[0x7f80102e45e0]
    [huiwei-Super-Server:13718] [ 9] interFoam(+0x46a8c)[0x562be93c6a8c]
    [huiwei-Super-Server:13718] [10] /lib/x86_64-linux-gnu/libc.so.6(__libc_start_main+0xe7)[0x7f800edaec87]
    [huiwei-Super-Server:13718] [11] interFoam(+0x54f4a/usr/lib/openfoam/openfoam2306/platforms/linux64GccDPInt32Opt/lib/libOpenFOAM.so(_ZN4Foam7argListC1ERiRPPcbbb+0x310)[0x7f77541425e0]
    [huiwei-Super-Server:13717] [ 9] interFoam(+0x46a8c)[0x5650b4393a8c]
    [huiwei-Super-Server:13717] [10] /lib/x86_64-linux-gnu/libc.so.6(__libc_start_main+0xe7)[0x7f7752c0cc87]
    [huiwei-Super-Server:13717] [11] interFoam(+0x54f4a)[0x5650b43a1f4a]
    [huiwei-Super-Server:13717] *** End of error message ***
    )[0x562be93d4f4a]
    [huiwei-Super-Server:13718] *** End of error message ***
    --------------------------------------------------------------------------
    prterun noticed that process rank 0 with PID 0 on node huiwei-Super-Server exited on
    signal 11 (Segmentation fault).
    --------------------------------------------------------------------------
     
    
    1 条回复 最后回复
  • 李东岳李 在线
    李东岳李 在线
    李东岳 管理员
    写于 最后由 编辑
    #2

    这个log看起来不全。

    不过类似这种肯定不是硬件的问题。我估计你最后一个时间步的数据没保存好。你看看从其他时间步开始算一下

    http://dyfluid.com/index.html
    需要帮助debug算例的看这个 https://cfd-china.com/topic/8018

    Y 1 条回复 最后回复
  • Y 离线
    Y 离线
    YuPeng
    在 中回复了 李东岳 最后由 编辑
    #3

    @李东岳 李老师,我是新开的一个算例,是从案例里面直接复制过来的,log文件里只有这么多东西

    1 条回复 最后回复
  • Y 离线
    Y 离线
    YuPeng
    写于 最后由 编辑
    #4

    对这个问题做一下总结和解决方案,不一定对但是给大家留作参考
    1、问题原因的最终确定:
    问题的原因在连续介质群,群名西工大-曹东明的提示下发现,在此感谢曹前辈。运行which mpirun出现:

    2d500df7019aad8710153417bcc8ae5.jpg
    可以看到这个地址和我之前装REEF3D时按照说明操作的openmpi编译地址相同,引起了我的怀疑,于是我将.bashrc文件关于新加openmpi的PATH注释掉,重新编译,编译后:

    cd3d0ca484038a5029e084bdf27d465.jpg
    之后运行并行就可以运行了

    1 条回复 最后回复
  • Y 离线
    Y 离线
    YuPeng
    写于 最后由 编辑
    #5

    2、经验教训
    不知道说的对不对,前辈们可以建议一下,在新编译软件的时候需要注意,尤其是新加PATH的时候,编译后可能并不会直接出现问题,但是重启电脑将原有.bashrc重新source会引起错误

    1 条回复 最后回复

  • 登录

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 最新
  • 版块
  • 东岳流体
  • 随机看[请狂点我]