Fudan DISC推出跨视觉语言模态预训练模型MVPTR：多层次语义对齐实现SOTA（已开源）

本文介绍了 Fudan DISC 实验室提出的一种基于多层次语义对齐的多阶段视觉 - 语言预训练模型 MVPTR，MVPTR 是一个多阶段的视觉 - 语言表征模型和预训练方法，通过显式地学习表示不同层级的，来自图片和文本信息的语义，并且在不同的阶段对齐不同层次的语义，在大规模图片 - 文本对语料库上预训练的 MVPTR 模型在下游视觉 - 语言任务上取得了明显的进展，包括图片 - 文本检索、视觉语言问答、视觉推断、短语指代表示。