DeepSeek 쇼크와 Extreme Co-Design: NVIDIA가 정의하는 AI 인프라의 미래
2026년 4월 15일

DeepSeek 쇼크와 Extreme Co-Design: NVIDIA가 정의하는 AI 인프라의 미래
본 글은 다가오는 NVIDIA GTC 2026의 핵심 의제인 Extreme Co-Design을 깊이 있게 이해하기 위해 기획된 5편 시리즈의 첫 번째 글입니다.
2026년 3월, 전 세계 엔지니어들의 시선이 다시 한번 젠슨 황의 키노트로 향하고 있습니다.
이번 NVIDIA GTC 2026에서 공개될 '루빈(Rubin)' 플랫폼과 AI 팩토리 비전을 관통하는 키워드는 단연 'Extreme Co-Design'입니다.
이 거대한 담론을 이해하기 위해서는 1년 전 AI 인프라의 패러다임을 송두리째 뒤흔들었던 'DeepSeek(딥시크) 쇼크'를 복기해야 합니다.
2025년 AI 패러다임을 뒤흔든 'DeepSeek 쇼크'의 본질
당시 DeepSeek는 미국의 규제로 인해 H100 대신 네트워크 대역폭이 제한된 H800 기반 인프라를 사용해야 했습니다.
이는 데이터 전송 병목이라는 치명적인 '결핍'을 야기했습니다.
그럼에도 불구하고 딥시크는 GPT-4급 상용 모델에 근접한 성능과 압도적인 비용 효율을 구현하며 전 세계를 놀라게 했습니다.
DeepSeek는 해당 기술을 오픈소스로 공개하며, 고가의 GPU 없이도, 통신 제약이 존재하는 인프라 환경에서도 고성능 AI 구현이 가능하다는 것을 증명했습니다.
DeepSeek는 어떻게 제약을 혁신의 발판으로 삼을 수 있었을까요?
하드웨어 한계를 돌파한 소프트웨어 스택 재설계
딥시크는 상용 라이브러리를 그대로 사용하는 대신, 하드웨어의 밑바닥인 PTX(Parallel Thread Execution) 단계까지 파고드는 집요함을 보여주었습니다.
- MLA(Multi-Head Latent Attention): H800의 고질적인 메모리 대역폭 부족을 해결하기 위해 KV 캐시를 저랭크(Low-Rank)로 압축, 메모리 병목을 연산 부하로 치환하여 한계를 우회했습니다.
- PTX 레벨 직접 튜닝: CUDA 상위 레벨을 넘어 어셈블리 수준에서 통신과 연산 파이프라인을 제어하여 인프라 효율을 극대화했습니다.
구조적 설계의 승리, '사용자 관점'의 Co-Design
딥시크의 사례는 단순한 '가성비' 모델의 등장이 아닙니다.
하드웨어를 바꿀 수 없다면 그 하드웨어의 미세한 결함에 맞춰 소프트웨어 전체를 재정의할 수 있다는 가능성을 증명한 것입니다.
이는 엔비디아가 주창해 온 'Extreme Co-Design'이 사용자 측면에서 가장 극적으로 구현된 사례로 평가받습니다.
Extreme Co-Design: 하드웨어와 알고리즘의 유기적 결합
엔비디아가 정의하는 Extreme Co-Design은 하드웨어와 소프트웨어가 서로의 부족함을 메우며 하나의 시스템으로 동작하는 것을 의미합니다.
연산 효율 극대화: DualPipe와 GRPO
-
DualPipe(레이턴시 하이딩): 느린 인터커넥트 속도를 극복하기 위해 전방향(Forward)과 역방향(Backward) 계산을 겹쳐 실행하는 양방향 파이프라인을 구축, 통신 오버헤드를 사실상 제거했습니다.
-
GRPO(알고리즘 최적화): 추론(Reasoning) 모델 학습 시 메모리를 많이 차지하는 기존 방식을 탈피하여, 알고리즘 구조 자체를 하드웨어 제약에 맞춰 재설계했습니다.
NVIDIA의 전략: 칩이 아닌 '시스템'을 설계하다
DeepSeek가 '결핍'을 메우기 위해 소프트웨어를 재설계했다면, 엔엔비디아는 처음부터 칩, 시스템, 소프트웨어, 네트워크를 동시에 설계하는 '공급자(Vendor) 관점'의 Co-Design을 밀어붙이고 있습니다.
엔비디아의 방식은 사용자가 칩에 맞춰 최적화하는 단계를 넘어, 데이터센터 전체가 하나의 거대한 유기체처럼 동작하도록 설계됩니다. Blackwell NVL72 구조가 NVLink 스위치를 중앙 패브릭으로 재구성하고 리퀴드 쿨링을 도입한 이유도 바로 여기에 있습니다.
2026년 AI 인프라 경쟁의 핵심은 '통합 설계 능력'
AI 인프라 경쟁은 이제 하드웨어 공급망 싸움을 넘어, 전체 스택을 유기적으로 설계할 수 있는 역량 싸움으로 전개되고 있습니다.
2025년이 단순히 GPU를 얼마나 많이 확보하느냐(Scale-up)의 해였다면, 2026년은 그 GPU를 어떻게 설계하고 다루느냐(Orchestration)의 해가 될 것입니다.
우리나라도 수만 장의 GPU 확보를 넘어, 이를 어떻게 설계하고 오케스트레이션할 것인지에 대한 고민이 필요한 시점입니다.
TEN은 이러한 흐름에 발맞춰 RA:X와 AI Pub을 통해 고객사가 보유한 인프라 자원을 극한까지 활용할 수 있는 최적의 아키텍처와 오케스트레이션 솔루션을 제공하고 있습니다.
[다음 글 예고] 왜 젠슨 황은 "무어의 법칙은 끝났다"고 단언했을까요?
다음 포스트에서는 1년 단위로 아키텍처를 업데이트하는 엔비디아의 '미친 속도'와 그 이면에 숨겨진 Extreme Co-Design의 정의를 심층 분석합니다.