본문바로가기

GPU 자원 운용 기술 기반
원 스탑 인공지능 플랫폼

GPU 자원 운용 기술 기반 원 스탑 인공지능 플랫폼

AI Pub

Coaster를 코어로 한 인공지능 서비스 운영 효율화 플랫폼

Coaster

Kubernetes를 확장하여 GPU 인프라 운용과
사용자 관리 기능을 강화한 컨테이너 플랫폼

Plug-in

NVIDIA MIG(Multi-instance GPU)

NVIDIA Triton Inference Server

NetApp Trident

NetApp Astro

AI Pub은 인공지능 개발과 운영업무를 효율화 해줄 뿐 아니라 AI 모델러, IT 엔지니어 그리고 관리자의 협업을 통합된 플랫폼 환경에서 가능하게 해줍니다.

Container Workspace

사용자가 원하는 GPU개수만큼 컨테이너 환경을 할당받아 인공지능 학습을 할 수 있습니다.

· 사용자에게 할당 된 Workspace에는 접속을 위한 Node port가 할당되며 SSH 접속을 통해 사용 가능합니다.
· 컨테이너 할당을 우선해야 하는 경우는 우선 순위를 조절하여 먼저 할당 받을 수 있게 조절할 수 있습니다.

IDE Setting for AI Development

인공지능 개발을 위해 Tensorflow, Pytorch와 같은 AI framework 및 CUDA, Python 같은 SW 가 필요하며, 최신 서버 장비(스위치나 네트워크 등) HW를 활용하기 위해서 드라이버나 환경설정 작업이 요구됩니다.

· 사용자의 개발 환경을 이미지의 형태로 관리할 수 있습니다.
· 컨테이너를 개발자 개인이 익숙한 개발 환경으로 세팅 가능하며 하드웨어 설정도 최신으로 유지해 줍니다.

Model Training

여러 사용자가 인공지능 학습 코드를 다양하게 세팅을 바꿔가며 한 번에 Job으로 요청할 수 있습니다.

· 사용자의 개발 코드를 이미지의 형태로 관리할 수 있습니다.
· 특정 Job을 우선하여 수행해야 하는 경우는 관리자가 우선순위에 따라 먼저 작업을 완료 할 수 변경 할 수 있습니다.

Model Operation

GPU 자원을 블록 단위로 분할하여 최소의 자원에 AI 운영 서비스를 생성하고 서비스가 필요한 만큼 GPU 자원을 조절하여 할당할 수 있습니다.

· 사용자의 서비스를 이미지의 형태로 관리할 수 있습니다.
· Kubernetes service와 Deployment를 상속하여 한번에 관리 가능합니다.
· 비 개발자도 서비스 생성, 중지, 삭제, 업데이트, 롤백을 쉽게 할 수 있습니다.

Container and Service Management

온프레미스 서버에서도 퍼블릭 클라우드 환경이 제공하는 서비스를 경험할 수 있습니다.

High availability
이중화를 통해
Single point of failure 제거
Rolling Update
서비스 중단 없이
업데이트 상시 가능
Scale-out
서비스 요청에 따라 자동으로
서버 수를 늘려 트래픽 처리
Load Balancing
Service mesh를 이용한
L7 load balancing
Fail over 대응
서비스 중단 탐지 및 새로 서비스를
띄워 안정성 확보
이상징후 알림
중요 운영 이벤트 발생 시
슬랙으로 실시간 알림

Infra and Service Monitoring

인공지능 운영자와 시스템 관리자를 위해 서비스와 시스템의 상태를 모니터링 할 수 있는 UI를 제공하며 주기적으로 리포트를 제공합니다.

· 서비스 매쉬를 통해 서비스의 요청, 응답 시간 등의 상태를 모니터링 할 수 있습니다.
· 클러스터 내 전체 자원의 상태를 다양한 차트로 확인 가능하며 미사용 GPU 자원을 회수 할 수 있습니다.
· 컨테이너 사용량의 모니터링이 가능하며 필요 시 사용량에 대한 과금을 할 수 있습니다.