期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
适用于申威众核架构的稀疏矩阵-矩阵乘法
刘侃, 杨磊, 薛巍, 陈文光
计算物理    2024, 41 (1): 22-32.   DOI: 10.19596/j.cnki.1001-246x.8766
摘要177)   HTML8)    PDF (8404KB)(522)   

本文提出新一代申威众核架构上稀疏通用矩阵-矩阵乘法(SpGEMM)的并行算法swSpGEMM。设计轻量级并行任务划分有效地应对了矩阵非零元分布引起的负载不均衡问题; 针对累加过程中的不规则访存和指令流水低效问题, 设计了分层稀疏累加器, 在不同输入特征下高效利用申威从核层次化内存, 且减少了整数查找中的指令间依赖, 更有效地发挥硬件的计算能力。SuiteSparse稀疏矩阵测试集中较大规模输入矩阵上, swSpGEMM的性能相比Intel Skylake双CPU上的MKL和NVIDIA A100上的cuSPARSE分别加速了21.1%和95.3%。

图表 | 参考文献 | 相关文章 | 多维度评价