在技术层面,Goku的核心优势在于其高效的训练策略和大规模的数据集。研究团队构建了一个包含3600万视频和1.6亿图像的数据集,并通过多种数据处理技术提升数据质量。此外,他们还采用了多阶段训练策略,包括图文语义对齐预训练、图像-视频联合训练以及 ...