https://youtu.be/POkc2PR9TCU?si=N5XgAA18RFl_GFWR 대규모 HPC 클러스터의 효율적 활용을 위한 Scheduler, Monitoring, DiagnosticsScheduling커스텀 스케줄러의 도입Monitoring요구사항노드 상태 + task 상태 동시에 표현운영자 / 사용자의 모니터링 요구사항 충족Diagnostics적용 사례Wrap Up 네이버의 고성능 하드웨어, 스토리지를 AI/ML 학습에 사용할 수 있도록 학습 모델링 관련 도구를 제공하는 플랫폼.최대 GPU 128장 규모 모델까지 학습 가능한 대규모 HPC 클러스터모든 GPU는 고속 네트워크인 infiniBand(IB)로 연결서버 간 높은 트래픽을 감당해내고, GPU에 직접 데이터를 송수신하며, 고속 스토리..