파라미터 수로 본 가장 큰 AI 모델 7가지 (2026)

지금까지 훈련된 가장 큰 AI 모델은 1조 개가 넘는 파라미터에 도달하며 언어 이해, 추론 및 생성의 경계를 넓히고 있습니다. 이 가이드는 확인된 파라미터 수를 기준으로 가장 큰 7개 모델을 순위별로 소개하며, 아키텍처, 학습 연산량, 발표 날짜 등의 세부 정보를 제공합니다. 수치는 2026년 초 기준 공개 데이터를 기반으로 하며 변경될 수 있습니다.

1. Switch Transformer (1.6조 파라미터)
2. GLaM (1.2조 파라미터)
3. PaLM (5400억 파라미터)
4. Megatron-Turing NLG (5300억 파라미터)
5. Llama 3 (4050억 파라미터)
6. BLOOM (1760억 파라미터)
7. GPT-3 (1750억 파라미터)

1. Switch Transformer (1.6조 파라미터)

Google의 Switch Transformer는 2022년 1월에 발표되었으며, 현재까지 확인된 가장 큰 밀집 모델입니다. 하지만 혼합 전문가(MoE) 설계를 통해 규모를 달성했으며, 추론 시 파라미터의 일부만 활성화됩니다. 총 1.6조 개의 파라미터를 사용하며 top-1 라우팅 메커니즘으로 토큰당 2048개의 전문가 중 하나를 선택합니다. Switch Transformer는 이전 MoE 모델 대비 4배 빠른 훈련 속도를 달성하면서 C4 및 SuperGLUE 벤치마크에서 경쟁력 있는 혼란도를 유지했습니다. 크기에도 불구하고 토큰당 약 95억 개의 파라미터만 활성화되므로 추론이 가능합니다.

2. GLaM (1.2조 파라미터)

Google의 Generalist Language Model (GLaM)은 2021년 12월 논문에서 설명되었으며, MoE 아키텍처를 사용하여 64개 전문가에 걸쳐 1.2조 개의 파라미터를 갖추고 있습니다. GLaM은 웹 페이지, 책, 뉴스에서 1.6조 개의 토큰으로 훈련되었으며, 29개의 NLP 작업에서 강력한 제로샷 및 원샷 결과를 달성했습니다. GPT-3보다 파라미터가 7배 많지만, 희소 활성화 덕분에 훈련 에너지는 1/3만 필요했습니다. 이 모델은 공개적으로 출시되지 않았지만, 아키텍처는 이후 MoE 설계에 영향을 미쳤습니다.

3. PaLM (5400억 파라미터)

Google의 Pathways Language Model (PaLM)은 2022년 4월에 발표되었으며, 7800억 개의 토큰으로 훈련된 5400억 파라미터의 밀집 트랜스포머입니다. PaLM은 6,144개의 TPU v4 칩 클러스터를 사용했으며, BIG-bench, 수학 문제 해결(GSM8K), 코드 생성(HumanEval)에서 소수 샷 추론 혁신을 보여주었습니다. 스케일링 곡선은 모델이 클수록 훈련 데이터 증가의 이점을 지속적으로 얻을 수 있음을 보여주었습니다. PaLM은 이후 PaLM 2(파라미터 수 미공개)와 최종적으로 Gemini로 이어졌습니다.

2018년 이후 주요 AI 모델의 파라미터 수 증가 추세를 보여주는 차트로, 기하급수적 증가를 나타냄

4. Megatron-Turing NLG (5300억 파라미터)

NVIDIA와 Microsoft는 2021년 10월에 Megatron-Turing NLG (MT-NLG)를 공동 개발했으며, 이는 5300억 파라미터의 밀집 모델입니다. 자연어 생성, 독해, 상식 추론 분야에서 기준을 세웠습니다. NVIDIA의 Megatron-LM(텐서 병렬화)과 Microsoft의 DeepSpeed(파이프라인 병렬화)를 사용하여 훈련된 MT-NLG는 당시 가장 밀집된 훈련 모델이었습니다. 이는 MoE의 복잡성 없이도 밀집 아키텍처의 확장이 일관된 성능 향상을 가져올 수 있음을 입증했습니다.

5. Llama 3 (4050억 파라미터)

Meta의 Llama 3 405B는 2024년 7월에 출시된 4050억 파라미터의 밀집 모델로, 해당 클래스에서 가장 큰 완전 오픈소스 모델입니다. 웹 페이지, 코드, 다국어 콘텐츠 등 공개 데이터에서 15조 개 이상의 토큰으로 훈련되었습니다. Llama 3 405B는 여러 벤치마크(MMLU, HumanEval, GSM8K)에서 GPT-4와 경쟁력 있는 결과를 달성하면서도 무료로 다운로드 및 미세 조정이 가능합니다. 오픈 릴리스는 로봇 공학 응용 분야를 비롯한 산업 전반의 연구와 배포를 가속화했으며, 엣지 하드웨어에서 모델이 실행됩니다.

6. BLOOM (1760억 파라미터)

BigScience Large Open-science Open-access Multilingual (BLOOM) 모델은 2022년 7월에 출시되었으며, 1000명 이상의 연구자가 협력하여 개발한 1760억 파라미터의 디코더 전용 트랜스포머입니다. 46개 자연어와 13개 프로그래밍 언어에 걸쳐 3660억 개의 토큰으로 훈련되었습니다. BLOOM은 가장 큰 진정한 오픈 웨이트 모델 중 하나로, 재현 가능한 연구를 가능하게 합니다. 훈련에는 Jean Zay 슈퍼컴퓨터와 Megatron-DeepSpeed 프레임워크가 사용되었습니다.

7. GPT-3 (1750억 파라미터)

OpenAI의 GPT-3는 2020년 6월 논문 "Language Models are Few-Shot Learners"에서 설명되었으며, 1750억 개의 파라미터로 현대 스케일링 경쟁을 시작했습니다. 번역, 질문 응답, 텍스트 생성에서 소수 샷 및 제로샷 능력을 입증했습니다. GPT-3는 CommonCrawl, WebText, 책, Wikipedia의 570GB 텍스트로 훈련되었습니다. 크기 면에서는 추월당했지만, GPT-3의 영향력은 독보적입니다. 모델(및 데이터) 확장이 작업 성능을 극적으로 향상시킨다는 것을 증명했으며 ChatGPT와 같은 상용 API의 문을 열었습니다.

비교표: 7대 AI 모델

모델	파라미터 수	아키텍처	학습 연산량	출시 연도	오픈소스
Switch Transformer	1.6T (95억 활성)	MoE (2048 전문가)	약 1,200 TPU-일	2022	아니오
GLaM	1.2T (64 전문가)	MoE	약 4,900 TPU-일	2021	아니오
PaLM	5400억	밀집 트랜스포머	약 8,600 TPU-일	2022	아니오
Megatron-Turing NLG	5300억	밀집 트랜스포머	약 6,500 GPU-일 (NVIDIA A100)	2021	아니오
Llama 3	4050억	밀집 트랜스포머	약 30.8M GPU-시간 (H100)	2024	예
BLOOM	1760억	밀집 트랜스포머	약 3.5M GPU-시간 (A100)	2022	예
GPT-3	1750억	밀집 트랜스포머	약 1.5M GPU-일 (V100)	2020	아니오

자주 묻는 질문

확인된 가장 큰 모델은 Google의 Switch Transformer로 1.6조 개의 파라미터를 가지고 있지만, GPT-4는 더 클 수 있습니다(미확인). DeepSeek V2(Mixture-of-Experts)와 같은 최신 모델도 높은 파라미터 수를 주장하고 있습니다.

왜 일부 조 단위 파라미터 모델은 추론 시 파라미터의 일부만 사용하나요? MoE 아키텍처는 토큰당 소수의 전문가만 활성화하므로, 총 파라미터가 조 단위여도 추론 효율성이 유지되며 활성 파라미터는 종종 수십억 개 수준에 머뭅니다.

이 모델들이 로봇 공학과 어떤 관련이 있나요? 대규모 언어 모델은 휴머노이드 로봇의 인지 계층으로 점점 더 많이 사용되어 자연어 명령, 작업 계획, 조작을 위한 코드 생성을 가능하게 합니다.

AI 모델의 크기에 한계가 있나요? 연산량, 메모리 대역폭, 에너지 소비와 같은 물리적 제약이 한계를 부과하지만, 희소 어텐션, 양자화, 분산 훈련에 대한 연구가 계속해서 경계를 넓히고 있습니다.

이 중 상업적으로 사용 가능한 모델은 무엇인가요? Llama 3 405B와 BLOOM은 상업적 사용에 적합한 허용 라이선스 하에 오픈소스로 제공됩니다. GPT-3는 폐쇄 소스이지만 OpenAI의 API를 통해 접근 가능합니다.

결론

더 큰 AI 모델을 구축하기 위한 경쟁은 2020년 1750억 개에서 2026년 초 1.6조 개 이상으로 파라미터 수를 급증시켰습니다. MoE 아키텍처는 비례적인 연산 비용 없이 조 단위 모델을 가능하게 하며, Llama 3 405B와 같은 오픈소스 모델은 접근성을 민주화합니다. 미래의 혁신은 단순한 크기가 아니라 더 효율적인 훈련, 더 나은 데이터, 추론과 실제 세계 상호작용을 결합한 특화 아키텍처에서 비롯될 수 있습니다. 이것이 바로 로봇 공학이 요구하는 것입니다.

차세대 대규모 AI 시스템에서는 희소 MoE 모델과 밀집 모델 중 어느 것이 주도할 것이라고 생각하시나요?