然而,现有研究多聚焦于 Image-Text 多模态任务,尚未涉足更复杂的全模态场景。基于此,通义实验室团队探索了 RLVR 与视频全模态模型的结合,于今日宣布开源 R1-Omni 模型。 R1-Omni 的一大亮点在于其透明性(推理能力)。通过 RLVR 方法,音频信息和视频信息在 ...