关于并行计算的问题

CFDngu

@李东岳不过我最近发现，当我添加质量源之后，不知道是不是我程序的问题，有时候renumberMesh之后计算报错，不执行这个命令就可以算，而且结果也是正确的。。

程迪

@李东岳一直不明白为啥以lduMatrix的数据结构，renumber还能增加效率？

如果是带状的diag band结构，renumber增加效率是合理的。但是ldu不应该呀。

renumber是针对那部分算法有加速作用的？我想应该不会是matrix vector product.

xpqiu

@程迪原理我也不太清楚，但是 renumberMesh 确实能加速收敛，减少迭代需要的次数，尤其是在程序刚开始跑起来的时候。可能是因为 band 更小的矩阵收敛会更快，跟矩阵存储的数据结构无关？

程迪

@xpqiu
线性代数告诉我们，reorder不改变特征值...

xiaofenger

@CFDngu 请问有没有什么规则来决定应该分多少块？是不是四核就只能分4块？还是说分的越多越好？

程迪

@xiaofenger
标准的并行程序做法应该是有多少numa块，分成多少块。

考虑OpenFOAM一般没有开启OpenMP，有多少核分多少块吧。

程迪

@xpqiu
https://www.cfd-online.com/Forums/openfoam/191055-why-renumbering-works-ldumatrix.html#post658931
Jasaki 说是因为增加了cache命中率，固定点迭代也改善了单元周围update的单元。

xiaofenger

@程迪我在四核八线程的电脑上装了virtualbox, 然后给Ubuntu虚拟机分了2个CPU，这样应该decompose成两块？只分成两块会比一整块有大的速率提升吗？

程迪

@xiaofenger

分两块，应该有大的提升。

李东岳

如果是带状的diag band结构，renumber增加效率是合理的。但是ldu不应该呀。

在Numerical Recipes in C++上面有提及部分矩阵reordering和并行技术，Yoosf Saad那本稀疏线性系统有大量的论述，目前暂时了解不是很深如。不过我确定对于非结构网格离散后的矩阵不一定是比较窄的带状的。并且reNumberMesh是在分配矩阵操作之前。可以理解为对某些网格导致比较宽的离散矩阵进行预先操作，降低带宽。具体降低带宽后如何提高迭代求解还得看资料。

程迪

@李东岳
NPC++没有提ldu结构，ldu结构reorder不减少matrix-vector product的操作次数。所以加速只可能来源于两点：更高的cache命中率（同样数量的操作，更快的执行速度）和更高的迭代效率（比如GS迭代，或许reorder之后的GS迭代矩阵的谱半径更小）。

对于纯粹的Krylov型求解器应该只有第一点。

CFD中文网

关于并行计算的问题