谷歌识图即将迎来全面升级：AI 认识到了同网页中不同图像的深层语义关系

Google DeepMind 从互联网上挖掘了 3670 万个图像对，这些图像对可能长得天差地别，但是它们出现在了同一个网页上，这表明它们有某种深层次的联系。

研究员使用多模态模型以理解的方式描述了这些图像对的关系，并将其总结为一段简短的文字。比如"卡车形态的擎天柱"图像和"汽车人形态的擎天柱"图像，现在 AI 认识到了这是"变形后的样子"。

经过这 3670 万个 (查询图像、指令、目标图像) 三元组数据的训练，Google 创造出了迄今最强大的图像检索模型 MagicLens。