|| 우리는 달에 가기로 했습니다.
- Hybrid인프라부터 네트워크 최적화까지, 무신사 AI Infra구축기들어가며 — 시작은 정답이 아니라 질문에서이 글은 지난 AWS Summit 2025에서 인터넷 안되는 하이브리드 환경에서 살아남기(16:46부터) 발표한 자료와, AWS Community Day 2025에서 트래픽 폭주에도 흔들리지 않는 AI 서비스, Gateway API로 여는 안정적 확장성의 미래 발표한 내용을 포함하며, 거기서 못다한 이야기기들, 실제 운영 경험·시행착오·로그·엔지니어링 의사결정의 뒷면까지 포함한 확장 기록입니다.
우리는 구축 과정 내내 같은 질문을 반복했습니다.
“우리는 지금 올바른 결정을 하고 있는가?”
AI 인프라를 구축하는 과정에서 중요한 것은
“어떤 기술을 선택했는가?”가 아니라,
“왜 그 기술을 선택해야 했는가?” 였습니다.
이 글은 정답이 아니라 탐색의 기록,
완성물이 아니라 성장 중인 시스템의 항해 로그입니다.
이 기록이 앞으로 같은 고민을 하게 될 누군가에게 조금 더 빠르게, 조금 더 멀리 갈 수 있는 기록이 되길 바라며 펜을 듭니다.
—
—
지속 가능성 없이는 미래도 없다
2024–2025년의 AI 시장은 단순한 “기술 트렌드”가 아니라 생존의 조건이었습니다.
투자 확대, GPU 공급난, 운영비 증가. 그리고 그 결과로 이어진 비(非) AI 조직 축소.
문제는 명확했습니다.
AI는 한 번 구축하면 끝나는 시스템이 아니라, 지속적으로 비용이 발생하는 기술이라는 점입니다.
모델의 설계와 실험 과정에서 드는 트레이닝 비용,
트래픽 증가에 따라 폭증하는 inference 비용,
최신 데이터를 반영하기 위한 반복적 재학습.
초기에는 합리적으로 보였던 솔루션들 — SageMaker, Databricks 같은 관리형 서비스들은 트래픽 확장과 함께 비용 기울기가 기하급수적으로 올라갔습니다.
H100 8way 인스턴스 한 대만 해도 월 비용이 1억 원에 달합니다. 그러나 이 한 대가 모든 문제를 해결해주진 않습니다.
기업이 AI를 본격적으로 사용하려면 보통 H100 40장 규모는 되어야 원활한 연구와 실험이 가능해지고, inference까지 고려하면 그 이상을 요구합니다.
아래는 40장 규모 기준 비교표 예시입니다.
정리하면 결론은 명확했습니다.
지속 가능한 AI를 구축하려면, 온프레미스 GPU 운영을 반드시 고려해야 한다.
—
—
우리는 달에 가기로 했습니다https://newsroom.musinsa.com/newsroom-menu/2025-0331
앞서 이야기한 것처럼, 트래픽은 폭발적으로 증가하고 있었습니다.
그리고 그 성장 속도에 따라 실험 비용과 inference 비용도 같은 기울기로, 아니 그보다 더 빠르게 상승하고 있었습니다.
만약 이 문제를 제때 해결하지 못했다면, 이것은 단순한 비용 문제가 아니라 더 큰 파급으로 이어졌을 것입니다.
실험량 감소
연구 속도 둔화
모델 경쟁력 저하
서비스 품질 정체
그리고 최종적으로 성장 속도 둔화
즉, 혁신의 속도를 비용이 결정하는 구조가 되어버릴 가능성이 매우 컸습니다.
그리고 그 순간, 한 문장이 떠올랐습니다.
https://www.chron.com/news/nation-world/space/article/We-choose-to-go-to-the-moon-The-text-of-13704557.php“우리는 앞으로 10년 안에 달에 갈 것입니다.
그것이 쉬운 일이기 때문이 아니라, 어려운 일이기 때문입니다.”
— 존 F. 케네디, 1962
GPU도 없었고, 전력 인프라도 부족했고, 예산 역시 충분하지 않았습니다.
그러나 하나는 분명했습니다.
“지금 하지 않으면, 미래에 우리는 더 큰 대가를 치르게 될 것이다.”
그래서 문서를 작성했습니다.
계산을 하고, 시나리오를 설계하고, 리스크와 기대 효익을 모두 적어냈습니다.
그리고 그 문서는 CTO님의 검토를 거쳐 정식으로 승인되었습니다.
그 순간이 전환점이었습니다.
그날 이후,
우리는 단순히 GPU를 사는 것이 아니라,
회사의 기술 미래를 다시 설