Los modelos de inteligencia artificial más grandes jamás entrenados alcanzan ahora más de un billón de parámetros, superando los límites de la comprensión, el razonamiento y la generación del lenguaje. Esta guía clasifica los siete modelos más grandes por número confirmado de parámetros, con detalles sobre arquitectura, cómputo de entrenamiento y fecha de publicación. Las cifras se basan en datos disponibles públicamente a principios de 2026 y pueden haber cambiado.
- 1. Switch Transformer (1,6 billones de parámetros)
- 2. GLaM (1,2 billones de parámetros)
- 3. PaLM (540 mil millones de parámetros)
- 4. Megatron-Turing NLG (530 mil millones de parámetros)
- 5. Llama 3 (405 mil millones de parámetros)
- 6. BLOOM (176 mil millones de parámetros)
- 7. GPT-3 (175 mil millones de parámetros)
1. Switch Transformer (1,6 billones de parámetros)
El Switch Transformer de Google, presentado en enero de 2022, sigue siendo el modelo denso confirmado más grande, pero alcanza su escala mediante un diseño de mezcla de expertos (MoE), donde solo una fracción de los parámetros está activa por inferencia. Utiliza 1,6 billones de parámetros totales con un mecanismo de enrutamiento top-1, seleccionando uno de 2048 expertos por token. Switch Transformer logró una aceleración de 4x en el entrenamiento en comparación con modelos MoE anteriores, manteniendo una perplejidad competitiva en los benchmarks C4 y SuperGLUE. A pesar de su tamaño, la inferencia es factible porque solo se activan alrededor de 9.500 millones de parámetros por token.
2. GLaM (1,2 billones de parámetros)
El Generalist Language Model (GLaM) de Google, descrito en un artículo de diciembre de 2021, cuenta con 1,2 billones de parámetros distribuidos en 64 expertos utilizando arquitectura MoE. GLaM fue entrenado con 1,6 billones de tokens de páginas web, libros y noticias, y logró resultados sólidos en cero disparos y un disparo en 29 tareas de PLN. A pesar de tener 7 veces más parámetros que GPT-3, GLaM requirió solo 1/3 de la energía de entrenamiento debido a su activación dispersa. El modelo nunca se publicó públicamente, pero su arquitectura influyó en diseños MoE posteriores.
3. PaLM (540 mil millones de parámetros)
El Pathways Language Model (PaLM) de Google, anunciado en abril de 2022, es un transformador denso de 540 mil millones de parámetros entrenado con 780 mil millones de tokens. PaLM utilizó un clúster de 6.144 chips TPU v4 y demostró avances en razonamiento de pocos disparos en BIG-bench, resolución de problemas matemáticos (GSM8K) y generación de código (HumanEval). Su curva de escalado mostró que los modelos más grandes siguen beneficiándose del aumento de datos de entrenamiento. PaLM fue sucedido por PaLM 2 (con un número de parámetros no revelado) y finalmente por Gemini.

4. Megatron-Turing NLG (530 mil millones de parámetros)
NVIDIA y Microsoft desarrollaron conjuntamente Megatron-Turing NLG (MT-NLG) en octubre de 2021, un modelo denso de 530 mil millones de parámetros. Estableció puntos de referencia en generación de lenguaje natural, comprensión lectora y razonamiento de sentido común. Entrenado utilizando Megatron-LM de NVIDIA para paralelismo tensorial y DeepSpeed de Microsoft para paralelismo de tuberías, MT-NLG fue en su momento el modelo denso más grande entrenado. Demostró que escalar arquitecturas densas podía producir ganancias consistentes sin la complejidad del MoE.
5. Llama 3 (405 mil millones de parámetros)
El Llama 3 405B de Meta, lanzado en julio de 2024, es un modelo denso de 405 mil millones de parámetros y el modelo de código abierto más grande en su clase. Fue entrenado con más de 15 billones de tokens de datos disponibles públicamente, incluyendo páginas web, código y contenido multilingüe. Llama 3 405B logra resultados competitivos con GPT-4 en muchos benchmarks (MMLU, HumanEval, GSM8K) y está disponible gratuitamente para descarga y ajuste. Su publicación abierta ha acelerado la investigación y el despliegue en diversas industrias, incluyendo aplicaciones robóticas donde los modelos se ejecutan en hardware de borde.
6. BLOOM (176 mil millones de parámetros)
El modelo BLOOM (BigScience Large Open-science Open-access Multilingual), lanzado en julio de 2022, es un transformador de solo decodificador de 176 mil millones de parámetros entrenado colaborativamente por más de 1.000 investigadores. Fue entrenado con 366 mil millones de tokens en 46 idiomas naturales y 13 lenguajes de programación. BLOOM es uno de los modelos de pesos abiertos más grandes, permitiendo investigación reproducible. Su entrenamiento utilizó el superordenador Jean Zay y el framework Megatron-DeepSpeed.
7. GPT-3 (175 mil millones de parámetros)
El GPT-3 de OpenAI, descrito en el artículo de junio de 2020 "Language Models are Few-Shot Learners", tiene 175 mil millones de parámetros e inició la carrera moderna de escalado. Demostró capacidades de pocos y cero disparos en traducción, respuesta a preguntas y generación de texto. GPT-3 fue entrenado con 570 GB de texto de CommonCrawl, WebText, libros y Wikipedia. Aunque ha sido superado en tamaño, la influencia de GPT-3 es inigualable: demostró que escalar modelos (y datos) mejora drásticamente el rendimiento de las tareas y abrió la puerta a APIs comerciales como ChatGPT.
Tabla comparativa: 7 modelos de IA más grandes
| Modelo | Número de parámetros | Arquitectura | Cómputo de entrenamiento | Año de publicación | Código abierto |
|---|---|---|---|---|---|
| Switch Transformer | 1,6T (9,5B activos) | MoE (2048 expertos) | ~1.200 TPU-días | 2022 | No |
| GLaM | 1,2T (64 expertos) | MoE | ~4.900 TPU-días | 2021 | No |
| PaLM | 540B | Transformador denso | ~8.600 TPU-días | 2022 | No |
| Megatron-Turing NLG | 530B | Transformador denso | ~6.500 GPU-días (NVIDIA A100) | 2021 | No |
| Llama 3 | 405B | Transformador denso | ~30,8M GPU-horas (H100) | 2024 | Sí |
| BLOOM | 176B | Transformador denso | ~3,5M GPU-horas (A100) | 2022 | Sí |
| GPT-3 | 175B | Transformador denso | ~1,5M GPU-días (V100) | 2020 | No |
Preguntas frecuentes
El modelo confirmado más grande es el Switch Transformer de Google, con 1,6 billones de parámetros, aunque GPT-4 podría ser mayor (no confirmado). Modelos más nuevos como DeepSeek V2 (Mezcla de Expertos) también han reclamado altos números de parámetros.
¿Por qué algunos modelos con billones de parámetros solo usan una fracción en inferencia? Las arquitecturas MoE activan solo unos pocos expertos por token, por lo que la inferencia sigue siendo eficiente incluso con parámetros totales a escala de billones; los parámetros activos suelen quedarse en unos pocos miles de millones.
¿Cómo se relacionan estos modelos con la robótica? Los grandes modelos de lenguaje se utilizan cada vez más como capa cognitiva en robots humanoides, permitiendo comandos en lenguaje natural, planificación de tareas y generación de código para manipulación.
¿Hay un límite en el tamaño que pueden alcanzar los modelos de IA? Restricciones físicas como el cómputo, el ancho de banda de memoria y el consumo de energía imponen límites, pero la investigación en atención dispersa, cuantización y entrenamiento distribuido sigue ampliando la frontera.
¿Cuál de estos modelos está disponible para uso comercial? Llama 3 405B y BLOOM son de código abierto bajo licencias permisivas adecuadas para uso comercial. GPT-3 es de código cerrado pero accesible a través de la API de OpenAI.
Conclusión
La carrera por construir modelos de IA cada vez más grandes ha disparado el número de parámetros de 175 mil millones en 2020 a más de 1,6 billones a principios de 2026. Las arquitecturas MoE permiten modelos a escala de billones sin un costo computacional proporcional, mientras que los modelos de código abierto como Llama 3 405B democratizan el acceso. Los avances futuros pueden venir no solo del tamaño bruto, sino de un entrenamiento más eficiente, mejores datos y arquitecturas especializadas que combinen razonamiento con interacción con el mundo real, exactamente lo que la robótica demanda.
¿Crees que los modelos MoE dispersos o los modelos densos dominarán la próxima generación de grandes sistemas de IA?

Únete a la discusión
Do sparse MoE or dense models scale better for real-world robotics applications?