GPU 자원 운용 기술 기반
원 스탑 인공지능 플랫폼
GPU 자원 운용 기술 기반 원 스탑 인공지능 플랫폼
AI Pub
Coaster를 코어로 한 인공지능 서비스 운영 효율화 플랫폼
Coaster
Kubernetes를 확장하여 GPU 인프라 운용과
사용자 관리 기능을 강화한 컨테이너 플랫폼
Plug-in
NVIDIA MIG(Multi-instance GPU)
NVIDIA Triton Inference Server
NetApp Trident
NetApp Astro
Coaster는 Kubernetes를 확장하여 클러스터 내의 GPU 리소스를 다루는 핵심 기능을 제공합니다. 표준 K8s 기능을 그대로 사용하면서 별도의 client 없이 K8s의 client로 coaster를 제어할 수 있습니다. K8s를 아는 고객이라면 쉽게 도입하여 사용할 수 있습니다.
GPU 자원의 분할 사용
사용자가 원하는 GPU개수만큼 컨테이너 환경을 할당받아 인공지능 학습을 할 수 있습니다.
Kubernetes Native
클러스터 내 GPU를 하나의 유닛 단위로만 컨테이너에 할당할 수 있습니다. 그래서 하나의 GPU에 여러개의 컨테이너를 띄울 수 없었습니다.
1개 GPU

Coaster Extended
GPU 1개의 utilization와 memory를 1% 단위로 분할하여 Block이라 부르고 100개로 나누어 관리할 수 있습니다.
1개 GPU

· Block 기반으로 GPU를 컨테이너에 할당하면 GPU에 여러 개의 컨테이너를 띄울 수 있을 뿐만 아니라 컨테이너 간 GPU block 들의 사용량 침해를 막아 안정성을 담보합니다.
GPU 자원의 조회와 할당
Kubernetes Native
클러스터 내 자원의 상태를 조회하기 위해서는 각각의 노드에 직접 접속하여 확인해야 했습니다.
Coaster Extended
K8s의 확장 명령어인 ‘kubectl resource’ 를 통해 사용자는 클러스터 어디에서나 클러스터 전체의 컴퓨팅 자원을 조회할 수 있습니다.
· K8s에서는 종류가 다른 GPU를 구별하여 컨테이너에 할당할 수 없었습니다. 그러나, Coaster에서는 적절한 타입의 GPU에 필요한 Block 수량을 Docker container에 쉽게 할당할 수 있습니다.
User 권한 관리 기능 - Group 기능
Kubernetes Native
유저를 생성하면 유저에게 모든 리소스 접근 제한에 대한 정책을 따로 관리해야 했습니다. 이는 세세한 조절이 가능하지만 너무 복잡하여 관리성은 매우 떨어졌습니다.
Coaster Extended
하나의 Group에 정책을 공유할 유저와 네임스페이스, 공유 저장소(Persistent Volume), 이미지 레지스트리, 서버 노드등 리소스 접근 권한을 하나로 묶어 관리가능합니다.
스케줄러 대기열 관리
Kubernetes Native
Kubernetes의 기본 스케줄러는 FIFO 방식으로 작동합니다. 하지만 Kubernetes를 사업이나 제품으로 이용하는 대부분의 사용자들은 긴급한 Job는 우선적으로 할당되어 서비스가 되길 바랍니다.
Coaster Extended
Coaster의 스케줄러는 Queue에 있는 작업들의 우선순위 변경이 가능합니다. 이를 통해 긴급한 Job을 우선적으로 처리할 수 있습니다. Coaster 스케줄러 이용 시 K8s의 기본 스케줄러의 동시 사용은 불가합니다.