稀疏LU分解是使用直接法求解非对称线性 系统的关键步骤之一,经常是众多科学与工程应 用中相当耗时的一个操作。由于稀疏 LU 分解的 数据依赖和计算模式十分复杂,所以将其在异构 分布式平台上进行性能优化一直极具挑战。现在 大多数可以部署在分布式集群上的直接法解法 器如 MUMPS 等都是使用 CPU 进行运算,但是 未能利用 GPU 的计算能力;而 SuperLU 等虽然 可以使用 GPU 进行 GEMM 部分的加速,但是 由于矩阵分块大小等限制,对于 GPU 的使用效 率一般并不理想。本次报告将描述我们在 GPU 加速的异构分布式集群上的稀疏LU分解和稀疏 三角解算法,以及对应的开源直接法解法器软件 包 PanguLU(注:软件包命名取“盘古开天地” 之意,经矩阵分解后,“天”为 U 矩阵,“地” 为 L 矩阵)。在异构集群上的实验结果表明,我 们的工作在很多稀疏矩阵上的性能上要明显优 于已有方法。