华为诺亚开源首个亿级中文多模态数据集-悟空,填补中文NLP社区一大空白

华为诺亚方舟实验室的研究者发布了一个名为「悟空」的大型中文跨模态数据集,其中包含来自网络的 1 亿个图文对。为了保证多样性和泛化性,悟空数据集是根据一个包含 20 万个高频中文单词列表收集的。

点击进入