aixiPa Google DeepMind 从互联网上挖掘了 3670 万个图像对,这些图像对可能长得天差地别,但是它们出现在了同一个网页上,这表明它们有某种深层次的联系。 研究员使用多模态模型以理解的方式描述了这些图像对的关系,并将其总结为一段简短的文字。比如"卡车形态的擎天柱"图像和"汽车人形态的擎天柱"图像,现在 AI 认识到了这是"变形后的样子"。 经过这 3670 万个 (查询图像、指令、目标图像) 三元组数据的训练,Google 创造出了迄今最强大的图像检索模型 MagicLens。