华人一作统一「视觉-语言」理解与生成：一键生成图像标注，完成视觉问答，Demo可玩

近日，来自 Salesforce Research 的研究者提出了 BLIP（Bootstrapping Language-Image Pre-training），用于统一视觉 - 语言理解和生成任务。BLIP 是一个新的 VLP 框架，可以支持比现有方法更广泛的下游任务。BLIP 通过自展标注（bootstrapping the captions），可以有效地利用带有噪声的 web 数据，其中标注器（captioner）生成标注，过滤器（filter）去除有噪声的标注。该研究在视觉 - 语言任务上取得了 SOTA 性能，例如在图像 - 文本检索任务上， recall@1 提高 2.7%；在图像标注任务上，CIDEr 提高 2.8%、VQA 提高 +1.6%。当将 BLIP 以零样本的方式直接迁移到视频 - 语言任务时，BLIP 也表现出很强的泛化能力。