阿里巴巴开源了Qwen1.5系列的首个千亿参数模型Qwen1.5-110B,其在基础能力评估中与Meta的Llama3-70B模型相当,并在Chat评估中表现出色。该模型采用Transformer解码器架构,支持32K tokens上下文长度和多语言。性能提升主要来自模型规模增加,而非预训练方法改变。在MT-Bench和AlpacaEval 2.0评估中,110B模型比72B模型有显著提升,证实了大规模模型的优势。Qwen1.5-110B是系列中规模最大的模型,性能优于72B模型。
Qwenlm (https://qwenlm.github.io/blog/qwen1.5-110b/?ref=upstract.com)