Apple发布大模型论文：多模式LLM预培训的方法、分析和见解

aixiPa

2024年3月14日，苹果公司发布了自家的大型多模态基础模型MM1，该模型拥有高达300亿参数，并采用混合专家（MoE）架构。超过半数的论文作者是华人。MM1模型在多模态任务上显示出强大的性能，尤其是在少样本学习和上下文预测方面。研究团队通过对不同架构组件和数据选择的深入分析，提出了几条关键的设计准则。他们发现，图像分辨率、视觉编码器损失和容量，以及预训练数据的类型对模型性能有显著影响。MM1模型的开发，标志着苹果在生成式人工智能领域的重要进展。

论文地址