aixiPa Hugging Face 近日开源了一款名为“Cosmopedia”的 AI 训练数据集,号称是目前世界上最大的合成数据集。该数据集内容均由 Mixtral 7b 模型汇总生成,其中包含大量教科书、博客文章、故事小说、WikiHow 教程,共计 250 亿个 Token。 Hugging Face 表示,这次开源的数据集为 0.1 版本,未来团队还将持续更新该数据集,推进业界 AI 训练发展。 项目地址:huggingface.co