因此我们需要尽可能地为每个GPU分配均衡的计算负载、通信负载。 Prefill Load Balancer 核心问题:不同数据并行(DP)实例上的请求个数、长度不同,导致core-attention计算量、dispatch发送量也不同 优化目标:各GPU的计算量尽量相同(core-attention计算负载均衡)、输入 ...
Prefill Load Balancer的核心问题:不同数据并行(DP)实例上的请求个数、长度不同,导致core-attention计算量、dispatch发送量也不同。 其优化目标是 ...