공부하고 기록하는, 경제학과 출신 개발자의 노트
반응형

GPU 3

Deview 2023 - 대규모 HPC 클러스터의 효율적 활용을 위한 Scheduler, Monitoring, Diagnostics

https://youtu.be/POkc2PR9TCU?si=N5XgAA18RFl_GFWR 대규모 HPC 클러스터의 효율적 활용을 위한 Scheduler, Monitoring, DiagnosticsScheduling커스텀 스케줄러의 도입Monitoring요구사항노드 상태 + task 상태 동시에 표현운영자 / 사용자의 모니터링 요구사항 충족Diagnostics적용 사례Wrap Up 네이버의 고성능 하드웨어, 스토리지를 AI/ML 학습에 사용할 수 있도록 학습 모델링 관련 도구를 제공하는 플랫폼.최대 GPU 128장 규모 모델까지 학습 가능한 대규모 HPC 클러스터모든 GPU는 고속 네트워크인 infiniBand(IB)로 연결서버 간 높은 트래픽을 감당해내고, GPU에 직접 데이터를 송수신하며, 고속 스토리..

학습일지/AI 2025.06.30

KubeCon2024 - Which GPU Sharing Strategy Is Right for You? A Comprehensive Benchmark Study Using DRA

https://youtu.be/nOgxv_R13Dg?si=PxCxfv_F0NCCAkRB Which GPU Sharing Strategy Is Right for You? A Comprehensive Benchmark Study Using DRASpace vs Time PartitioningHardware vs Software Based Space PartitioningLayering StrategiesGPU Sharing in Kubernetes todayDedicatedtime slicingMPSMIGtime slicingMPSLimitationControl the Fraction of GPUGPU Sharing With DRA (Dynamic Resource Allocation)DedicatedShar..

학습일지/AI 2025.05.28

Scaling AI Workloads with kubernetes: Sharing GPU Resources Across Multiple Containers

https://youtu.be/t68ayhtaUQ8?si=GdmoGCpO6qdBQqur Scaling AI Workloads with kubernetes: Sharing GPU Resources Across Multiple ContainersUnderstanding GPU Resource ManagementMIG: GPU instance PartitioningTime-SlicingMIG vs Time-SlicingManaging GPU Resources in kubernetesSharing GPU between ContainersTechniques for Optimizing Deep Learning WorkloadsSummaryQ&A AI는 GPU를 많이 사용하지만, GPU는 비싸다. 따라서, 한 번 받..

학습일지/AI 2025.05.22
반응형