GPU 자원 운용 기술 기반
원 스탑 인공지능 플랫폼
GPU 자원 운용 기술 기반 원 스탑 인공지능 플랫폼
AI Pub
Coaster를 코어로 한 인공지능 서비스 운영 효율화 플랫폼
Coaster
Kubernetes를 확장하여 GPU 인프라 운용과
사용자 관리 기능을 강화한 컨테이너 플랫폼
Plug-in
NVIDIA MIG(Multi-instance GPU)
NVIDIA Triton Inference Server
NetApp Trident
NetApp Astro
AI Pub은 인공지능 개발과 운영업무를 효율화 해줄 뿐 아니라 AI 모델러, IT 엔지니어 그리고 관리자의 협업을 통합된 플랫폼 환경에서 가능하게 해줍니다.
Container Workspace
사용자가 원하는 GPU개수만큼 컨테이너 환경을 할당받아 인공지능 학습을 할 수 있습니다.
· 사용자에게 할당 된 Workspace에는 접속을 위한 Node port가 할당되며 SSH 접속을 통해 사용 가능합니다.
· 컨테이너 할당을 우선해야 하는 경우는 우선 순위를
조절하여 먼저 할당 받을 수 있게 조절할 수 있습니다.
IDE Setting for AI Development
인공지능 개발을 위해 Tensorflow, Pytorch와 같은 AI framework 및 CUDA, Python 같은 SW 가 필요하며, 최신 서버 장비(스위치나 네트워크 등) HW를 활용하기 위해서 드라이버나 환경설정 작업이 요구됩니다.
· 사용자의 개발 환경을 이미지의 형태로 관리할 수 있습니다.
· 컨테이너를 개발자 개인이 익숙한 개발 환경으로 세팅 가능하며 하드웨어 설정도 최신으로 유지해 줍니다.
Model Training
여러 사용자가 인공지능 학습 코드를 다양하게 세팅을 바꿔가며 한 번에 Job으로 요청할 수 있습니다.
· 사용자의 개발 코드를 이미지의 형태로 관리할 수 있습니다.
· 특정 Job을 우선하여 수행해야 하는 경우는 관리자가 우선순위에 따라 먼저 작업을 완료 할 수 변경 할 수
있습니다.
Model Operation
GPU 자원을 블록 단위로 분할하여 최소의 자원에 AI 운영 서비스를 생성하고 서비스가 필요한 만큼 GPU 자원을 조절하여 할당할 수 있습니다.
· 사용자의 서비스를 이미지의 형태로 관리할 수 있습니다.
· Kubernetes service와 Deployment를 상속하여 한번에 관리 가능합니다.
· 비 개발자도
서비스 생성, 중지, 삭제, 업데이트, 롤백을 쉽게 할 수 있습니다.
Container and Service Management
온프레미스 서버에서도 퍼블릭 클라우드 환경이 제공하는 서비스를 경험할 수 있습니다.
Single point of failure 제거
업데이트 상시 가능
서버 수를 늘려 트래픽 처리
L7 load balancing
띄워 안정성 확보
슬랙으로 실시간 알림
Infra and Service Monitoring
인공지능 운영자와 시스템 관리자를 위해 서비스와 시스템의 상태를 모니터링 할 수 있는 UI를 제공하며 주기적으로 리포트를 제공합니다.
· 서비스 매쉬를 통해 서비스의 요청, 응답 시간 등의 상태를 모니터링 할 수 있습니다.
· 클러스터 내 전체 자원의 상태를 다양한 차트로 확인 가능하며 미사용 GPU 자원을
회수 할 수 있습니다.
· 컨테이너 사용량의 모니터링이 가능하며 필요 시 사용량에 대한 과금을 할 수 있습니다.