Amazon SageMaker HyperPod로 슈퍼브에이아이의 비전 파운데이션 모델 ‘ZERO’ 효율적으로 대규모 분산 학습하기

URL

https://aws.amazon.com/ko/blogs/tech/amazon-sagemaker-hyperpod-superbai-zero-foundation-model/

생성 일시

2026/04/10 10:06

최종 편집 일시

2026/04/10 10:06

태그

AWS

파일과 미디어

이 블로그는 슈퍼브에이아이의 차문수 (공동창업자, CTO), 장태웅 (머신러닝 엔지니어), 최상범(머신러닝 엔지니어) 님과 AWS 유용환 (GenAI Solutions Architect) 님이 작성해주신 블로그 입니다. 슈퍼브에이아이는 압도적인 비전 AI 노하우와 경험을 바탕으로 피지컬 AI로 확장 중인 비전 인텔리전스 기업입니다. 산업 현장에서 바로 적용 가능한 비전 파운데이션 모델 ‘ZERO(Zero-shot Object Detector)’를 어떻게 Amazon SageMaker HyperPod를 이용하여 효율적으로 학습시키고 개선했는지 소개하려 […] || 이 블로그는 슈퍼브에이아이의 차문수 (공동창업자, CTO), 장태웅 (머신러닝 엔지니어), 최상범(머신러닝 엔지니어) 님과 AWS 유용환 (GenAI Solutions Architect) 님이 작성해주신 블로그 입니다. 슈퍼브에이아이는 압도적인 비전 AI 노하우와 경험을 바탕으로 피지컬 AI로 확장 중인 비전 인텔리전스 기업입니다. 산업 현장에서 바로 적용 가능한 비전 파운데이션 모델 ‘ZERO(Zero-shot Object Detector)’를 어떻게 Amazon SageMaker HyperPod를 이용하여 효율적으로 학습시키고 개선했는지 소개하려 합니다. 슈퍼브에이아이는 당사가 보유한 약 10억 장의 방대한 원시 데이터 중, 산업 현장에 실제로 의미 있는 약 400만 장의 고품질 데이터를 선별 및 큐레이션하여 비전 파운데이션 모델 ZERO를 집중적으로 학습시켰습니다. 그 결과, ZERO는 특정 도메인에 국한되지 않고 실제 산업 현장을 포함하는 오픈 월드(Open World) 환경에서 다양한 객체와 패턴을 인식할 수 있는 범용성을 확보했습니다. ZERO의 핵심 기능은 멀티모달 그라운딩(Multi-modal Grounding)입니다. 사용자가 텍스트 프롬프트로 객체를 설명하거나, 이미지 기반의 비주얼 프롬프트를 제시하면 모델은 해당 객체의 위치를 정밀하게 탐지합니다. 이를 통해 고객은 별도의 데이터 수집이나 추가 학습(Fine-tuning) 없이도, 제로샷(Zero-shot) 방식으로 산업 현장의 다양한 결함과 객체를 즉시 검출할 수 있습니다. Amazon SageMaker HyperPod를 선택한 이유 기존 클라우드 환경에서는 단일 노드 환경만을 제공하거나, 클러스터를 제공하더라도 연 단위 플랜만 사용 가능하여 유연성이 부족하다는 한계가 있었습니다. 반면, Amazon SageMaker HyperPod는 사용 시나리오에 따라 인스턴스 크기를 유연하게 변경할 수 있으며, 고성능 노드 사용 시 EFA(Elastic Fabric Adapter)와 같은 고성능 네트워크가 기본으로 탑재되어 인프라 구성에 매우 유리합니다. 슈퍼브에이아이의 개발 프로세스는 ‘데이터 정제 및 학습 알고리즘/파라미터 개선 → 학습 → 결과 분석’의 사이클로 이루어지며, GPU를 1년 내내 사용하는 것이 아니기 때문에 HyperPod의 유연한 인스턴스 크기 조절 기능은 비용 효율성 측면에서 큰 이점을 제공했습니다. 또한, 오래된 드라이버와 운영 체제(Ubuntu 20.04 등)를 기본 탑재한 타사 클라우드와 달리, HyperPod의 AMI(Amazon Machine Image)는 최신 드라이버와 운영 체제로 꾸준히 업데이트됩니다. 이 덕분에 Flash Attention과 같이 종속성(dependency) 관리가 까다로운 핵심 패키지도 문제없이 설치할 수 있었습니다. 전체 워크플로우 개요 슈퍼브에이아이의 개발 사이클은 ‘데이터 정제 → 학습 파라미터 개선 → 학습 → 결과 분석’의 단계로 구성됩니다. 전체적인 워크플로우는 다음과 같습니다. Training Plan 예약: 먼저 Amazon SageMaker Training Plan을 예약하여 대규모 학습 기간을 확보합니다. 준비 단계 타임라인 설정: 데이터 준비, 학습 파라미터 튜닝 등의 타임라인을 설정합니다. 학습 파라미터 튜닝 및 리허설: 저렴한 GPU 인스턴스를 활용하여 트레이닝을 진행하며, 데이터 무결성 검