参数规模最大的7个人工智能模型

参数规模最大的7个人工智能模型

按参数数量排名七个人工智能模型:从Switch Transformer(1.6万亿)到GPT-3(1750亿),包含规格与训练算力。

2 分钟阅读已更新 2026年6月
Elena Vasquez
Elena Vasquez

迄今为止训练的最大AI模型参数已超过一万亿,不断推动语言理解、推理和生成的边界。本指南根据已确认的参数数量,列出了七个最大的模型,包括架构、训练算力和发布日期——数据基于2026年初的公开资料,可能已发生变化。

1. Switch Transformer(1.6万亿参数)

Google于2022年1月推出的Switch Transformer,仍是已确认的最大稠密模型——但它通过混合专家(MoE)设计实现规模,每次推理仅激活一小部分参数。该模型总参数达1.6万亿,采用top-1路由机制,每个token从2048个专家中选择一个。Switch Transformer在训练速度上比之前的MoE模型提升了4倍,同时在C4和SuperGLUE基准测试中保持了具有竞争力的困惑度。尽管规模庞大,但由于每个token仅激活约95亿参数,推理是可行的。

2. GLaM(1.2万亿参数)

Google的通用语言模型(GLaM)在2021年12月的论文中描述,采用MoE架构,拥有1.2万亿参数,分布在64个专家中。GLaM在1.6万亿token的网页、书籍和新闻数据上训练,并在29个NLP任务中取得了强大的零样本和单样本结果。尽管参数数量是GPT-3的7倍,但由于稀疏激活,GLaM仅需GPT-3三分之一的训练能耗。该模型从未公开发布,但其架构影响了后续的MoE设计。

3. PaLM(5400亿参数)

Google于2022年4月发布的Pathways语言模型(PaLM),是一个5400亿参数的稠密Transformer,在7800亿token上训练。PaLM使用了6144个TPU v4芯片集群,在BIG-bench、数学问题求解(GSM8K)和代码生成(HumanEval)中展示了少样本推理的突破。其缩放曲线表明,更大的模型能继续从更多训练数据中获益。PaLM后来被PaLM 2(参数数量未公开)和最终Gemini取代。

从2018年起主要AI模型参数数量增长的图表,显示指数级增长

4. Megatron-Turing NLG(5300亿参数)

NVIDIA和微软于2021年10月联合开发了Megatron-Turing NLG(MT-NLG),一个5300亿参数的稠密模型。它在自然语言生成、阅读理解、常识推理方面树立了标杆。MT-NLG利用NVIDIA的Megatron-LM进行张量并行,以及微软的DeepSpeed进行流水线并行,是当时训练的最稠密模型。它证明了扩展稠密架构可以在不增加MoE复杂性的情况下持续获得收益。

5. Llama 3(4050亿参数)

Meta于2024年7月发布的Llama 3 405B,是一个稠密的4050亿参数模型,也是同类中最大的完全开源模型。它在超过15万亿token的公开数据上训练,包括网页、代码和多语言内容。Llama 3 405B在多个基准测试(MMLU、HumanEval、GSM8K)中取得了与GPT-4竞争的结果,同时可自由下载和微调。其开源发布加速了各行业的研究和部署,包括机器人应用,模型可在边缘硬件上运行。

6. BLOOM(1760亿参数)

BigScience大型开放科学开放获取多语言模型(BLOOM)于2022年7月发布,是一个1760亿参数的仅解码器Transformer,由1000多名研究人员合作训练。它在46种自然语言和13种编程语言的3660亿token上训练。BLOOM是最大的真正开放权重模型之一,支持可重复研究。其训练使用了Jean Zay超级计算机和Megatron-DeepSpeed框架。

7. GPT-3(1750亿参数)

OpenAI的GPT-3在2020年6月的论文《Language Models are Few-Shot Learners》中描述,拥有1750亿参数,开启了现代缩放竞赛。它在翻译、问答和文本生成方面展示了少样本和零样本能力。GPT-3在来自CommonCrawl、WebText、书籍和维基百科的570GB文本上训练。尽管在规模上已被超越,GPT-3的影响力无与伦比——它证明了扩展模型(和数据)能显著提高任务性能,并为ChatGPT等商业API打开了大门。

对比表:7个最大的AI模型

模型参数数量架构训练算力发布年份开源
Switch Transformer1.6万亿(95亿激活)MoE(2048专家)~1,200 TPU-天2022
GLaM1.2万亿(64专家)MoE~4,900 TPU-天2021
PaLM5400亿稠密Transformer~8,600 TPU-天2022
Megatron-Turing NLG5300亿稠密Transformer~6,500 GPU-天(NVIDIA A100)2021
Llama 34050亿稠密Transformer~30.8M GPU-小时(H100)2024
BLOOM1760亿稠密Transformer~3.5M GPU-小时(A100)2022
GPT-31750亿稠密Transformer~1.5M GPU-天(V100)2020

常见问题

训练过的最大AI模型是什么? 已确认的最大模型是Google的Switch Transformer,拥有1.6万亿参数,不过GPT-4可能更大(未经证实)。较新的模型如DeepSeek V2(混合专家)也声称有高参数数量。

为什么一些万亿参数模型在推理时只使用一小部分参数? MoE架构每个token只激活几个专家,因此即使总参数达到万亿级,推理依然高效——活跃参数通常保持在数十亿。

这些模型与机器人技术有何关联? 大型语言模型越来越多地作为人形机器人的认知层,实现自然语言指令、任务规划和操作代码生成。

AI模型的大小是否有限制? 物理限制如算力、内存带宽和能耗设定了上限,但稀疏注意力、量化和分布式训练的研究不断推动边界。

这些模型中哪些可用于商业用途? Llama 3 405B和BLOOM在允许商业使用的宽松许可下开源。GPT-3是闭源的,但可通过OpenAI的API访问。

结论

构建更大AI模型的竞赛已使参数数量从2020年的1750亿飙升至2026年初的1.6万亿以上。MoE架构使万亿级模型无需按比例增加计算成本,而Llama 3 405B等开源模型则使访问民主化。未来的突破可能不仅来自原始规模,还来自更高效的训练、更好的数据以及结合推理与真实世界交互的专门架构——这正是机器人技术所需要的。

您认为稀疏MoE模型还是稠密模型将主导下一代大型AI系统?

参与讨论

Do sparse MoE or dense models scale better for real-world robotics applications?

🍪 Cookie 偏好设置

我们使用 Cookie 来衡量性能。 隐私政策