HPC节点独显效率

cccrrryyy

@李东岳 7H12那个，重新测了下：
1节点 128核 7312s
2节点 256核 3237s
4节点 512核 1334s

李东岳

@cccrrryyy 不错啊，超线性！挺好挺好！

1节点128核 7312s

2节点128核 3372s

4节点128核 1811s

不过这个你跑的没问题？都是128核，4节点比1节点快了4倍？

cccrrryyy

@cccrrryyy 我再三确认过，因为我自己也觉得有点神奇了。

我觉得保持总核数128不变的，和我之前测的那些差不多。多节点并行就是很快，节点独占的情况下相当于用4台机器的性能（L3缓存什么的）去支撑这个计算。

所以保持总核数不变，和保持单节点的核数不变，有什么区别呀？从性价比来说，如果一定要节点独占，很明显我应该用4节点512核，更快，单价和4节点128核一样。

李东岳

@cccrrryyy 这个帖子有点逐渐跑题了，我新搞一个帖子，挪过去之后大家讨论。

李东岳

1节点128核 7312s
2节点128核 3372s
4节点128核 1811s

我这面主要想不明白的是这个数据。我的印象里：都是128核的情况下，4节点肯定是要比1节点要快，但不至于快4倍。也就快个不到2倍。L3缓存换成4倍也不至于快4倍哟。

heike256

@李东岳网络带宽小于内存带宽的1/4可以出现这种情况，网络带宽制约非常明显的时候才能出现计算性能随节点数量线性scale-up的情况

luofq-sysu

@李东岳李老师，我在超算平台测试2000W算例，三节点并行64*3，计算两千步总耗时58s？！

李东岳

@luofq-sysu 应该不太可能的样子 ..

luofq-sysu

@李东岳李老师，抱歉乌龙了，这个是超算支持工程师测试的，他应该重新blockMesh了。我自己亲手测试的结果是，3节点并行192核心，2000步总耗时——ExecutionTime = 2696.54 s ClockTime = 2758 s。

贴一个CPU信息：Intel(R) Xeon(R) Platinum 8358P CPU @ 2.60GHz

李东岳

@luofq-sysu 这个靠谱差不多嗯

CFD中文网