该论文提出了一种名为CLIP(Contrastive Language-Image Pre-Training)的多模态预训练模型,用于学习图像和文本之间的语义关系。该模型使用自然语言作为监督信号,通过对比预测正确的图像-文本配对和错误的配对来学习特征表示。具体来说,CLIP首先将输入的图像和 ...