Search

GS리테일의 AIOps Agent 기반 운영 자동화 혁신

URL
생성 일시
2026/04/16 14:06
최종 편집 일시
2026/04/16 14:06
태그
AWS
파일과 미디어
개요 GS리테일은 전국 18,000여 개의 편의점 GS25와 슈퍼마켓 GS THE FRESH, O4O 플랫폼 우리동네GS, 홈쇼핑 GS SHOP 등 온·오프라인을 아우르는 대한민국 대표 유통기업입니다. 매일 수천만 명의 고객이 이용하는 이 서비스들이 끊김 없이 운영되는 데에는 GS리테일 클라우드인프라팀의 24/7 모니터링이 뒷받침되고 있습니다. GS리테일의 클라우드 인프라는 사업 부문별로 독립된 Datadog 환경과 다수의 모니터링 도구들을 통해 각각 모니터링되고 있습니다. […] || 개요 GS리테일은 전국 18,000여 개의 편의점 GS25와 슈퍼마켓 GS THE FRESH, O4O 플랫폼 우리동네GS, 홈쇼핑 GS SHOP 등 온·오프라인을 아우르는 대한민국 대표 유통기업입니다. 매일 수천만 명의 고객이 이용하는 이 서비스들이 끊김 없이 운영되는 데에는 GS리테일 클라우드인프라팀의 24/7 모니터링이 뒷받침되고 있습니다. GS리테일의 클라우드 인프라는 사업 부문별로 독립된 Datadog 환경과 다수의 모니터링 도구들을 통해 각각 모니터링되고 있습니다. 운영자들은 인시던트가 발생할 때마다 메트릭과 로그, Bitbucket 코드 변경 이력, Confluence 운영 문서, AWS 인프라 상태, Amazon EKS 클러스터 상태, DB 쿼리 확인까지 평균 5~6개의 도구를 직접 오가며 원인을 추적합니다. 숙련된 운영자는 경험과 직관으로 도구 간 상관관계를 빠르게 파악하고, 때로는 과거 유사 장애의 기억을 바탕으로 근본 원인을 짚어낼 수 있지만 이 과정은 평균 30분 이상 소요되며, 야간이나 주말에는 초기 대응이 지연되어 장애가 확산되는 위험도 존재합니다. 무엇보다 숙련된 운영자의 분석 노하우가 체계적으로 축적되지 않아, 담당자에 따라 분석 품질에 편차가 발생하는 것이 현실적인 과제였습니다. 이러한 문제를 해결하기 위해, GS리테일 클라우드인프라팀은 숙련된 SRE 전문가의 사고방식 자체를 AI에 주입하여 인시던트를 자율적으로 분석하는 AIOps Agent 시스템을 구축하기로 했습니다. 이 글에서는 Amazon Bedrock과 Model Context Protocol(MCP)을 활용하여 7개 이상의 도구를 AI가 스스로 선택·조합하며 근본 원인을 추적하고, 인시던트 분석 시간을 평균 30분에서 약 2분으로 93% 단축한 사례를 소개합니다. 운영 복잡성과 과제 멀티 조직 모니터링의 어려움 GS리테일은 GS25, GS THE FRESH, 우리동네GS, GS SHOP 등 사업 부문별로 독립된 Datadog 환경을 운영하고 있습니다. 각 사업 부문은 서로 다른 인프라 환경과 서비스 특성을 갖고 있어, 모니터링 구성과 알림 체계 역시 독립적으로 관리됩니다. 클라우드인프라팀은 이처럼 서로 다른 컨텍스트를 가진 다수의 조직에서 발생하는 인시던트를 통합 관리하고, 조직마다 다른 메트릭 구조와 알림 기준을 이해한 상태에서 원인을 분석해야 했습니다. 수동 분석의 한계 도구 분산: Datadog 메트릭/로그/트레이스, Bitbucket 커밋 이력, Confluence 운영 문서, AWS 인프라 상태, EKS 클러스터 상태, DB 쿼리 분석 등을 각각 별도로 확인 컨텍스트 전환 비용: 평균 5~6개 도구를 오가며 분석, 도구 간 상관관계 파악에 추가 시간 소요 야간/주말 대응: 24/7 모니터링 인력 확보의 어려움, 초기 대응 지연으로 장애 확산 위험 지식 단절: 숙련된 운영자의 노하우가 체계적으로 축적되지 않아 신규 인력의 분석 품질 편차 발생 운영에 AIOps 도입의 필요성 (AIOps Agent) 결국 클라우드인프라팀이 직면한 핵심 과제는 명확했습니다. 1/흩어진 도구의 정보를 하나로 연결하고, 2/숙련된 운영자의 분석 패턴을 누구나 동일하게 재현할 수 있어야 하며, 3/사람이 자리를 비운 시간에도 즉각적인 초기 대응이 가능해야 한다는 것입니다. 이 세 가지 과제는 단순한 스크립트 자동화나 룰 기반 알림으로는 해결하기 어렵습니다. 인시던트마다 원인이 다르고, 확인해야 할 도구의 조합도 매번 달라지기