Skip to content
  • 最新
  • 版块
  • 东岳流体
  • 随机看[请狂点我]
皮肤
  • Light
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • Dark
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
CFD中文网

CFD中文网

  1. CFD中文网
  2. OpenFOAM
  3. 200万网格并行算力测试(OpenFOAM版本)

200万网格并行算力测试(OpenFOAM版本)

已定时 已固定 已锁定 已移动 OpenFOAM
228 帖子 59 发布者 793.6k 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • H 离线
    H 离线
    heike256
    在 中回复了 李东岳 最后由 编辑
    #164

    @李东岳 epyc四代还没出256核的型号,顶配是9654,双路也就192个物理核心,QS版本也就发行价三折,这代看起来最合适OpenFOAM的9354,市面上QS版不多,正式版的价格比9654QS还贵。不得不说,DDR5内存真香,但主板还是太贵,主要是PCIe5.0的成本太高,OpenFOAM还用不到。

    1 条回复 最后回复
  • H 离线
    H 离线
    heike256
    在 中回复了 李东岳 最后由 heike256 编辑
    #165

    @李东岳 @CFDngu 水了这么多楼,这次发个正经的。
    双路Epyc ES 100-0000000894-04(俗称9654ES,步进b0),内存DDR5 4800 16G×24,硬盘三星980Pro
    OpenFOAM v2112 进行了非常多的fine tunning,但是算例文件没改过,无脑Allrun;宿主操作系统是Windows server 2022,虚拟机软件是hyper-v,客户机操作系统是Ubuntu 20.04。

    测试结果如下:
    cores Wall time (s):
    192 57.82
    190 48.26
    128 35.09
    64 45.29
    32 72.56
    16 134.86
    8 167.85
    4 259.53
    2 569.34
    1 928.2

    峰值性能35 s,以后请叫我榜一大哥。
    这个记录应该不难破,抄这个配置,裸金属直接安装Ubuntu 20.04就能破。

    李东岳李 1 条回复 最后回复
  • 李东岳李 离线
    李东岳李 离线
    李东岳 管理员
    在 中回复了 heike256 最后由 李东岳 编辑
    #166

    @heike256 感谢分享。35绝对榜一大哥了老铁!

    最近这一直没更新,我今天更新一下所有新纪录

    另外2000万网格也可以试一下,直接decompose,然后simplefoam

    https://pan.baidu.com/s/1kdw28XFvcJ7RdKntpESCNg?pwd=13t6

    http://dyfluid.com/index.html
    需要帮助debug算例的看这个 https://cfd-china.com/topic/8018

    H 1 条回复 最后回复
  • H 离线
    H 离线
    heike256
    在 中回复了 李东岳 最后由 编辑
    #167

    @李东岳 我先测的2000w网格,结果不敢私藏:

    测试了CFD-China的2000万网格算例2000个时间步的版本,并进行了性能优化,优化后的性能表现也令人满意。优化前,windows hyper-v 集成工具未启用,simpleFoam求解器运行耗时4119 s(Clock Time,下同),windows 任务管理器显示的CPU占用率约70%,说明未能充分发挥CPU性能,受到hyper-v资源分配的限制;启动hyper-v 集成工具后,宿主机(windows)和虚拟机(ubuntu)之间有了通讯,windows hyper-v可以更好地分配资源,这种条件下,simpleFoam求解器运行耗时4024 s,提高2.3%;进一步地,将384个逻辑内核全部分配给虚拟机,但计算时仍然保持192并行数,计算时长减少到3358 s,再提高16.5%。服务器在机房正式上架后,优化BIOS中的CPU设置,关闭超线程,虚拟机的核心数和物理机保持一致为192核,使用192核并行计算,耗时减小到3244 s,再提高3.4%。根据AMD 9004系列处理器架构设计白皮书,该处理器Zen 4架构多个核心共享L3 Cache,每个CPU有12个L3 Cache,因此MPI并行计算的瓶颈可能出现在多个进程争夺L3 Cache,因而,适当降低MPI并行数,并添加-map-by L3cache 选项,MPI并行数为180时,耗时 2824 s;并行数为168时,耗时2909 s。进行MPI运行优化后,最好成绩为2824 s,提高12.9%。

    以上优化仅仅是调整了硬件和软件的使用方式,还未涉及开发过程中的优化,计算用时从4119 s,降低到2824 s,性能提高31.4%。进一步的编译器优化还在进行。

    首发于地表最强处理器的工程样品,跑OpenFOAM效果如何

    1 条回复 最后回复
  • H 离线
    H 离线
    heike256
    在 中回复了 李东岳 最后由 heike256 编辑
    #168

    @李东岳 刚刚更新了一下我的知识储备,Epyc Zen 4 128核的处理9754已经在6月13日发布了,这个时候能搞到货的都是真大佬。9654已经不是地表最强了,刚落地,就落后,还是做个垃圾佬比较快乐。
    不过,6月13日发布的这批处理器,97?4,缓存只有256M,基本不用测试了,跑OpenFOAM也就9554的水平,倒是9?84X系列,都是高主频、大缓存,特别是9684X,三级缓存高达1152MB,非常值得期待,不知道比我手头的9654ES强多少。

    H 尚 2 条回复 最后回复
  • H 离线
    H 离线
    heike256
    在 中回复了 heike256 最后由 编辑
    #169

    海鲜市场有好多ES版的9684X,不到1w块钱,我有主板,谁能赞助我两块?

    1 条回复 最后回复
  • 李东岳李 离线
    李东岳李 离线
    李东岳 管理员
    写于 最后由 编辑
    #170

    2000个时间步2824秒。确实很强了!绝对榜一大哥了老铁!!

    http://dyfluid.com/index.html
    需要帮助debug算例的看这个 https://cfd-china.com/topic/8018

    1 条回复 最后回复
  • tidedrinkerT 离线
    tidedrinkerT 离线
    tidedrinker
    写于 最后由 tidedrinker 编辑
    #171
    CPU型号:AMD EPYC 7R32 * 2
    系统:linux系统(Linux Mint 19.3)
    OpenFOAM版本:OpenFOAM-4.1
    96 51.88
    64 46.01
    48 49.18
    32 50.66
    24 71.13
    16 100.18
    8 132.13
    4 246.73
    2 512.69
    1 1086.38
    

    7R32是48核96线程,开超线程可以到192,但跑的时候会报错,所以只到96核,反正按照经验超线程在这里没什么用处。
    4.1版本需要把源项fvOptions改一下才能用。

    更高的主频,更多的核心

    H 1 条回复 最后回复
  • 尚 在线
    尚 在线
    尚善若水
    在 中回复了 heike256 最后由 编辑
    #172

    @heike256 9684x目前应该是最适合hpc的芯片了。比9654强,海鲜市场看到两个卖的,9000块,但是感觉不是很靠谱。想买一个u测一下。

    H 1 条回复 最后回复
  • H 离线
    H 离线
    heike256
    在 中回复了 尚善若水 最后由 编辑
    #173

    @尚善若水 我也觉得海鲜市场不靠谱,期待你结果

    1 条回复 最后回复
  • 2 离线
    2 离线
    2019201300
    写于 最后由 编辑
    #174

    CPU型号:Intel i7-13700K
    系统:Win10 虚拟机
    OpenFOAM版本:OpenFOAM-v2212
    16 448.83
    8 317.34
    4 360.7
    2 418.9
    1 601.71
    内存条就插了一根,感觉影响很大

    H 2 2 条回复 最后回复
  • H 离线
    H 离线
    heike256
    在 中回复了 2019201300 最后由 编辑
    #175

    @2019201300 小核关了吗?内存频率是多少?

    2 1 条回复 最后回复
  • 2 离线
    2 离线
    2019201300
    在 中回复了 heike256 最后由 编辑
    #176

    @heike256 小核没动,买回来啥样是啥样,CPU主频最高支持5.4GHz,不过平时计算时我看基本保持在4.9GHz左右。

    1 条回复 最后回复
  • H 离线
    H 离线
    heike256
    写于 最后由 编辑
    #177

    我买了13700F,不带K的型号,因为我在书房用,希望发热小些,风扇转速低,安静。内存用了D5 6400双路,用不同配置做了测试,统计了Clock Time,似乎某些环境下ExecutionTime和预期非常不同,比ClockTime短很多,所以用了更可靠的ClockTime。

    处理器默认配置(开小核,开超线程),openfoam用2112 apt安装的版本

    # cores   Wall time (s):
    ------------------------
    8 157
    4 232
    2 331
    1 746
    

    ====================================
    处理器默认配置,openfoam用2112 Intel oneapi 自己编译的版本

    # cores   Wall time (s):
    ------------------------
    8 278
    6 187
    4 210
    2 345
    1 798
    

    可见,官方编译的版本在13700F上取得了157s的成绩,性能瓶颈依然是内存带宽,考虑到桌面平台CPU价格较低,且内存频率高于服务器平台,依然值得选购。

    1 条回复 最后回复
  • H 离线
    H 离线
    heike256
    写于 最后由 编辑
    #178

    试了一下关闭超线程和关闭E核(小核)的性能差别。关闭超线程对8核并行速度无影响,还是157s左右;超线程和小核都关闭的话,8核并行速度会变慢,计算时间200s以上了。

    1 条回复 最后回复
  • 文 离线
    文 离线
    文昌鱼
    在 中回复了 文昌鱼 最后由 编辑
    #179

    @文昌鱼

    CPU型号:Loongson-3A6000-HV
    系统:Loongnix GNU/Linux 20 (DaoXiangHu)
    OpenFOAM版本:OpenFOAM-v1806
    8 531.38
    4 579.04
    2 750.73
    1 1449.33
    

    龙芯新U系统和编译器支持还不完善,程序编译困难,但性能有明显提升

    李东岳李 文 2 条回复 最后回复
  • 李东岳李 离线
    李东岳李 离线
    李东岳 管理员
    在 中回复了 文昌鱼 最后由 编辑
    #180

    @文昌鱼 很厉害很厉害,大佬单位专门玩国产CPU?

    http://dyfluid.com/index.html
    需要帮助debug算例的看这个 https://cfd-china.com/topic/8018

    H 文 2 条回复 最后回复
  • H 离线
    H 离线
    heike256
    在 中回复了 李东岳 最后由 编辑
    #181

    @李东岳 海鲜市场可多了,海光应该还挺好用的,龙芯没玩儿过

    1 条回复 最后回复
  • 文 离线
    文 离线
    文昌鱼
    在 中回复了 文昌鱼 最后由 编辑
    #182

    @文昌鱼 在 200万网格并行算力测试(OpenFOAM版本) 中说:

    @文昌鱼

    CPU型号:Loongson-3A6000-HV
    系统:Loongnix GNU/Linux 20 (DaoXiangHu)
    OpenFOAM版本:OpenFOAM-v1806
    8 531.38
    4 579.04
    2 750.73
    1 1449.33
    

    龙芯新U系统和编译器支持还不完善,程序编译困难,但性能有明显提升

    勘误,编译器问题不大,cpu对高频内存支持不好,从3200降到2666就没什么编译器error了;3A6000峰值频率仅2.5GHz,这效率也差不多够看了;超线程大概是个假的,没啥意思。

    1 条回复 最后回复
  • 文 离线
    文 离线
    文昌鱼
    在 中回复了 李东岳 最后由 编辑
    #183

    @李东岳 个人爱好罢了,拿这玩意跑项目得头疼死。李老师的这个算例刚好拿来测试性能,就试着跑了一下。

    1 条回复 最后回复

  • 登录

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 最新
  • 版块
  • 东岳流体
  • 随机看[请狂点我]