이번 포스팅은 삼성전자 서비스의 핵심, 삼성계정 서비스에서 서비스 운영에 실질적인 문제를 해결하는데 GenAI를 어떻게 활용하는지 소개하는 2부작 시리즈 포스팅입니다. 사례가 AWS 기술블로그를 통해 세상에 알려질 수 있게 도움주신 모든 분들에게 감사의 마음을 전합니다. Part 1: 삼성계정 서비스의 AI SecOps – Multi-Agent로 진화하는 보안 위협 탐지 Part 2: Agentic AIOps – Multi-Agent 시스템으로 Root Cause Analysis […] ||
이번 포스팅은 삼성전자 서비스의 핵심, 삼성계정 서비스에서 서비스 운영에 실질적인 문제를 해결하는데 GenAI를 어떻게 활용하는지 소개하는 2부작 시리즈 포스팅입니다. 사례가 AWS 기술블로그를 통해 세상에 알려질 수 있게 도움주신 모든 분들에게 감사의 마음을 전합니다.
Part 1: 삼성계정 서비스의 AI SecOps – Multi-Agent로 진화하는 보안 위협 탐지
Part 2: Agentic AIOps – Multi-Agent 시스템으로 Root Cause Analysis 자동화하기 (현재)
서론: 대규모 서비스 운영에서 장애 대응의 현실
대규모 글로벌 서비스를 운영하는 환경에서 장애 대응은 단순한 기술 문제 해결을 넘어선 복합적인 도전입니다. 알림은 빠르게 도착하지만, 왜 문제가 발생했는지를 파악하는 과정은 여전히 운영자의 경험과 직관에 의존하는 경우가 많습니다. Samsung Account 서비스 역시 이러한 한계를 안고 있었습니다.
Datadog, Amazon CloudWatch, Amazon EKS 로그 등 풍부한 Observability 데이터가 이미 존재함에도 불구하고, 장애 발생 시 이 데이터들을 하나의 맥락으로 연결해 일관된 Root Cause Analysis(RCA)와 실행 가능한 조치 가이드로 전환하는 과정은 자동화되어 있지 않았습니다. 분석 품질과 대응 속도는 담당자의 숙련도에 따라 크게 달라졌고, 평균 복구 시간(MTTR)과 평균 탐지 시간(MTTD)을 안정적으로 줄이기 어려운 구조가 고착화되어 있었습니다.
이 글에서는 이상 탐지에서 근본 원인 분석, 조치 제안까지의 전 과정을 5분 이내로 자동화하기 위해 설계·구현·운영한 Agentic AIOps Multi-Agent 시스템의 실제 적용 사례를 다룹니다. 특히 Strands Agents SDK의 Agents as Tools 패턴을 활용한 계층적 위임(Hierarchical Delegation) 구조와 FastMCP 기반 Custom MCP 서버 구축 과정을 중심으로 기술적 구현 상세를 공유합니다.
해결하고자 한 과제
본 프로젝트의 목표는 명확했습니다.
첫째, MTTR과 MTTD를 구조적으로 단축하는 것이었습니다. 이상 탐지 발생 후 5분 이내에 근본 원인 후보와 그에 대한 근거를 제시할 수 있어야 했습니다. 둘째, 500 에러가 발생했을 경우 관련 서비스와 추정 원인, 그리고 우선적으로 검토해야 할 조치 가이드를 자동으로 제공하는 것이었습니다. 셋째, 코드 변경이나 재배포로 인한 문제와 성능 저하 또는 인프라 문제를 구분해 자동 진단할 수 있어야 했습니다. 마지막으로, 이 모든 결과가 Slack 기반 실시간 워크플로우 안에서 자연스럽게 공유되어야 했습니다.
AIOps의 진화와 Agentic AI의 부상
전통적 AIOps의 한계
AIOps(Artificial Intelligence for IT Operations)라는 용어는 Gartner가 2016년에 처음 제안한 이후, IT 운영에 AI와 머신러닝을 적용하는 접근 방식의 대명사가 되었습니다. 전통적인 AIOps 플랫폼은 이벤트 상관관계 분석, 이상 탐지, 알림 노이즈 감소 등에서 상당한 성과를 거두었습니다. Gartner에 따르면 AIOps를 도입한 기업들은 평균 복구 시간(MTTR)을 최대 40% 단축하고 프로세스 자동화를 30% 향상시킬 수 있다고 합니다.
그러나 전통적인 AIOps에는 근본적인 한계가 존재합니다. 대부분의 AIOps 플랫폼은 미리 정의된 규칙과