优化赛道 | 题一:INT8GEMM算子优化
01 赛题
矩阵固定采用row major排布,算法和测试程序都基于row major编写 采用N N转置类型,A和B矩阵都不做转置 为避免精度误差,设定oc=0不参与计算,alpha取1,beta取1 每次运行只执行一次gemm,确保冷启动条件,如有波动,请多次测试取最大值
#!/bin/bash
#DSUB --mpi hmpi
#DSUB -nn 1 节点数
#DSUB -R 'cpu=38;mem=256000'
#DSUB -x job 作业节点独占
#DSUB -oo test.out
#DSUB -eo test.err
taskset -c 0-37 ./testgemm --m=128 --n=1536 --k=7168
taskset -c 0-37 ./testgemm --m=128 --n=1536 --k=1536
taskset -c 0-37 ./testgemm --m=128 --n=576 --k=7168
taskset -c 0-37 ./testgemm --m=128 --n=7168 --k=1024
taskset -c 0-37 ./testgemm --m=128 --n=1536 --k=448
taskset -c 0-37 ./testgemm --m=128 --n=576 --k=448
注:m,n,k设置请参考int8gemm_mnk文件设置
7. dsub --affinity auto -s sub.sh提交作业
djob -l 作业号查看作业运行情况,查看*.out相关文件确认结果,输出参考如下:
指定矩阵乘法的M,N,K参数
./testgemm --m=128 --n=1536 --k=7168
如果只测试性能,不作结果校验
ONLY_PERF=1 ./testgemm --m=128 --n=1536 --k=7168
结果输出讲解
Testing i8u8, -m=128 ,n=1536 ,k=7168: PASSED, 0.34448GFLOPS
Testing i8u8, m = 128, n =1536, k =7168: SKIP CHECK, 0.381542GFLOPS
结果中PASSED表示计算结果正确,0.34448GFLOPS 表示gemmlib.c里的gemm实现的性能,前部的信息是测试的GEMM参数配置,结果中SKIP CHECK表示不作结果校验。
注:check结果校验位于性能测试后面,不影响性能
02 赛题说明
1. 编程语言:C/C++,汇编,intrinsics
推荐使用KUPL.mma模板库与KUPL.memcpy数据搬移模块
2. 编译器:
可以使用gcc, 毕昇编译器(推荐毕昇编译器)
3. 本赛题不允许使用MPI
最大可用核心数为38,限制在1个numa内
4. 提交最终源码、Makefile、编译环境、运行截图等,确保数据可复现
5. 初始数据要求保存在DDR上
6. GemmTest.cpp文件不可修改,只能改接口代码
通过优化gemmlib.c里的gemm实现,追求更高的flops性能
7. 禁止直接调用kml库接口
8. 允许不同矩阵规模调用不同算子函数
9. 不允许使用warmup优化,测试性能为冷启动测试,只允许跑一次测性能。
最终复测时跑十次取最佳性能
10. 评分标准
取六组测试数据的Flops总和,Flops值越高,成绩越好。要求结果最终输出通过PASSED测试
优化赛道决赛共两题:题一【INT8GEMM算子优化】和题二【Attention算子优化】,两题均为必答题,两题各占决赛成绩50%;
各阶段评分占比
决赛上机成绩=题一上机成绩(50%)+题二上机成绩(50%)
决赛成绩=上机成绩(80%)+现场答辩成绩(20%)
最终总决赛成绩=初赛成绩(20%)+决赛成绩(80%)
不可针对某类算例做针对性、无普适性、非通用优化,否则该部分成绩酌情扣除(如不确定优化方法是否满足要求,请及时与组委会沟通确认优化细节)
如出现作品源代码高度相似情况,则视为同一作品,取消参赛成绩
01 作业提交内容
提交内容:
最终优化后的源代码 编译环境说明及Makefile文件配置 提供完整编译测试流程README文件,保证后续结果能复现 最终的*.out作业日志 技术报告PPT
02 作业提交方式
提交方式:决赛当天指定时间提交
提交时间:2025年8月14日(具体时间、地点以临近时间通知为准)
赛题、上机指南及作品提交模版: 链接: https://pan.baidu.com/s/1iH5WU0d-Y6giU6WX8dE3_Q
提取码: PAC5
机时申请时间:初赛评审结束后,机时系统自动发送,具体发送时间请等待通知; 决赛评审方式:所有晋级决赛的队伍需要线下全程参加答辩,具体答辩时间和地点另行通知 证书发放:决赛评比结束后,由专家评审和组委会根据《大赛章程》和赛题评审 规则共同确定获奖情况,其中同一单位最多两支队伍获奖。 如有任何问题,可在“PAC 2025参赛交流群”中直接交流(技术问题请联系刘帅或刘珍圆,赛事赛程请联系张那),或者联系组委会工作人员(微信号:Paraterazhangna)
官方通知
2025/7/25
2025/7/25
2025/7/24
2025/6/26
2025/6/9
2025/6/9
2025/5/22
2025/6/6
2025/4/15
2025/3/6
2024/10/23
2024/10/23
2024/9/30
2024/8/22
2024/7/24
2024/7/12
2024/6/22
2024/4/26
2022/7/7
2022/5/7
7月25