이 글은 Artificial Intelligence 블로그에 게시된 글 (Introducing auto scaling on Amazon SageMaker HyperPod)을 한국어로 번역 및 편집하였습니다. 2025년 8월에 Amazon SageMaker HyperPod가 Karpenter를 통한 관리형 노드 오토스케일링 지원하기 시작했습니다. 이를 통해 추론 및 학습 요구 사항에 맞춰 SageMaker HyperPod 클러스터를 효율적으로 확장할 수 있습니다. 실시간 추론 워크로드는 예측 불가능한 트래픽 패턴에 대응하고 서비스 수준 계약(SLA)을 유지하기 […] ||
이 글은 Artificial Intelligence 블로그에 게시된 글 (Introducing auto scaling on Amazon SageMaker HyperPod)을 한국어로 번역 및 편집하였습니다.
2025년 8월에 Amazon SageMaker HyperPod가 Karpenter를 통한 관리형 노드 오토스케일링 지원하기 시작했습니다. 이를 통해 추론 및 학습 요구 사항에 맞춰 SageMaker HyperPod 클러스터를 효율적으로 확장할 수 있습니다. 실시간 추론 워크로드는 예측 불가능한 트래픽 패턴에 대응하고 서비스 수준 계약(SLA)을 유지하기 위해 오토스케일링이 필수적입니다. 수요가 급증할 때는 응답 시간이나 비용 효율성을 저하시키지 않으면서 GPU 컴퓨팅 리소스를 신속하게 조정하는 것이 필요합니다. 자체적으로 관리하는 Self-managed Karpenter와 달리, 완전 관리형 방식은 Karpenter 컨트롤러의 설치, 구성, 유지 관리에 따른 운영 부담을 줄이며 SageMaker HyperPod의 복원력 기능과 더욱 긴밀하게 통합됩니다. 또한 이 관리형 방식은 제로 스케일링(scale to zero)을 지원하여 Karpenter 컨트롤러 자체를 실행하기 위한 전용 컴퓨팅 리소스가 불필요하므로 비용 효율성도 높습니다.
SageMaker HyperPod는 대규모 모델 학습 및 배포에 최적화된 고성능 복원력 인프라, 관측성 및 도구를 제공합니다. Perplexity, HippocraticAI, H.AI, Articul8 등의 기업이 이미 모델 학습 및 배포에 SageMaker HyperPod를 활용하고 있습니다. 많은 회사가 파운데이션 모델(FM) 학습 뿐만 아니라 대규모 추론을 하게 되면서, 수요에 따라 노드 스케일을 확장 및 축소하며 실제 프로덕션 트래픽을 처리할 수 있는 GPU 노드 오토스케일링 기능이 필요해졌는데 이를 위해서는 강력한 클러스터 오토 스케일러가 필요합니다. AWS가 개발한 오픈 소스 Kubernetes 노드 수명 주기 관리도구(lifecycle manager)인 Karpenter는 스케일링 시간을 최적화하고 비용을 절감하는 강력한 기능으로 인해 Kubernetes 사용자들 사이에서 많이 채택되고 있는 클러스터 오토 스케일러입니다.
이 발표를 통해 SageMaker HyperPod에서 설치 및 유지보수되는 Karpenter 기반의 관리형 오토스케일링 솔루션을 제공하여, 비핵심 반복 작업(undifferentiated heavy lifting)에 대한 부담을 줄여줍니다. 이 기능은 SageMaker HyperPod EKS 클러스터에서 사용할 수 있으며, 오토스케일링을 활성화하여 SageMaker HyperPod 클러스터를 더 이상 정적 인프라가 아닌 수요에 따라 탄력적으로 확장되는 동적인 비용 최적화된 인프라로 전환할 수 있습니다. 이는 Karpenter라는 시장에서 검증된 노드 수명 주기 관리도구와 복원력(resilience)과 같은 대규모 머신러닝(ML) 워크로드의 특성에 맞춰 특수 설계된 SageMaker HyperPod의 인프라를 결합합니다. 이 글에서는 Karpenter의 이점을 자세히 살펴보고, SageMaker HyperPod EKS 클러스터에서 Karpenter를 활성화하고 설정하는 방법을 살펴봅니다.
새로운 기능과 장점
SageM