2025년 하반기부터 AWS에서 GPU 기반 분산 트레이닝 환경을 구축하는 고객이 급증하고 있습니다. 그럼에도 불구하고 많은 고객분들이 기존에 온프레미스 환경에서 사용되는 대표적인 인터커넥트 기술인 인피니밴드(Infiniband)와 AWS의 인터커넥트 기술의 차이점에 대해 명확히 이해하지 못하는 상황을 지켜보면서 이 블로그를 작성하게 되었습니다. 이번 블로그 시리즈에서는 AWS 클라우드 환경에서 분산 트레이닝 환경을 구축하고 운영하는데 필수적인 AWS의 인터커넥트 기술에 대해 소개하고자 […] ||
2025년 하반기부터 AWS에서 GPU 기반 분산 트레이닝 환경을 구축하는 고객이 급증하고 있습니다. 그럼에도 불구하고 많은 고객분들이 기존에 온프레미스 환경에서 사용되는 대표적인 인터커넥트 기술인 인피니밴드(Infiniband)와 AWS의 인터커넥트 기술의 차이점에 대해 명확히 이해하지 못하는 상황을 지켜보면서 이 블로그를 작성하게 되었습니다.
이번 블로그 시리즈에서는 AWS 클라우드 환경에서 분산 트레이닝 환경을 구축하고 운영하는데 필수적인 AWS의 인터커넥트 기술에 대해 소개하고자 합니다. 이 블로그 시리즈를 통해, 분산 트레이닝 관점에서 AWS 인터커넥트 기술의 특장점 및 제약 사항 등에 대해 이해의 폭을 넓혔으면 합니다. 인터커넥트의 개념과 AWS 인터커넥트 기술의 핵심 요소인 EFA(Elastic Fabric Adapter)및 SRD(Scalable Reliable Datagram)에 대한 기본적인 내용은 다음의 블로그를 참고하시기 바랍니다.
우선 첫 번째 블로그에서는 “인피니밴드와 EFA의 기술적 원리부터 AWS가 클라우드 환경에 최적화된 독자적인 인터커넥트 기술인 EFA를 선택한 이유, 그리고 두 기술의 철학적 차이와 실질적인 장단점” 에 대해 소개하고자 합니다.
시리즈 블로그 보기
분산 트레이닝 관점에서의 AWS 인터커넥트 기술 소개 – AWS는 왜 인터커넥트 기술로 EFA를 사용하는가?
분산 트레이닝 관점에서의 AWS 인터커넥트 기술 소개 – AWS의 인터커넥트 기반 기술, ENI 소개
분산 트레이닝 관점에서의 AWS 인터커넥트 기술 소개 – AWS 환경에서 NCCL을 이용한 GPU간 통신
분산 트레이닝 관점에서의 AWS 인터커넥트 기술 소개 – 분산 트레이닝을 위해 알아야 할 GPU간 고속 통신 기술
당신의 분산 트레이닝은 왜 느릴까?
대규모 모델 트레이닝 시 GPU 간 통신 오버헤드가 전체 트레이닝 시간의 약 22%에서 47%를 차지하며, 최신 H100 시스템에서도 이 비중이 약 43%에 달한다는 분석 결과가 있습니다. GPU 클러스터 운영 비용을 고려하면, 이 오버헤드는 대규모 트레이닝 프로젝트에서 상당한 인프라 낭비로 직결됩니다. 결국 아무리 자동차 엔진(GPU)이 슈퍼카 수준이라 하더라도, 도로(Network)가 막히면 목적지에 빨리 도착할 수 없습니다. LLM 트레이닝 효율화의 핵심은 엔진 튜닝만이 아니라 도로 정체 해소에도 있습니다. 따라서 인피니밴드 및 EFA의 특징 및 차이점에 대해 명확히 이해할 필요가 있습니다.
인피니밴드란 무엇인가?
인피니밴드는 1990년대 후반에 등장한 고성능 네트워크 기술로, 슈퍼컴퓨터와 온프레미스 HPC(High Performance Computing) 클러스터에서 수십 년간 표준으로 자리 잡아 왔습니다. 인피니밴드의 가장 큰 특징은 전용 하드웨어와 전용 프로토콜을 사용한다는 점입니다. 일반적인 이더넷과는 완전히 다른 별도의 네트워크 패브릭을 구성하며, 전용 HCA(Host Channel Adapter)와 인피니밴드 전용 스위치가 필요합니다.
인피니밴드는 크레딧 기반 흐름 제어(Credit-based Flow Control)를 자체적으로 내장하고 있어, 패킷이 드롭되지 않는 손실 없는(lossless) 통신을 기본으로 보장합니다. 크레딧 기반의 흐름 제어란, 수신 측의 버퍼 상태를 고려하여 송신량을 조절함으로써, 버퍼 넘침으로 인한 패킷 유실(Drop)을 원천적으로 방지하는 메커니즘입니다. 또한 RDMA(Remote Direct Me