현대 기업의 인프라 운영 환경은 점점 더 복잡해지고 있습니다. 클라우드 네이티브 아키텍처의 확산과 마이크로서비스 기반 애플리케이션의 증가로 인해 운영팀은 수많은 반복적인 작업과 장애 대응에 시달리고 있습니다. 야놀자는 이러한 운영 과제를 해결하기 위해 Amazon Bedrock AgentCore를 활용한 AIOps Agent 구축 프로젝트를 진행했습니다. 이 글에서는 야놀자가 6개 팀, 14명의 엔지니어와 함께 6주간 AWS와 협력하여 어떻게 6개의 AI […] ||
현대 기업의 인프라 운영 환경은 점점 더 복잡해지고 있습니다. 클라우드 네이티브 아키텍처의 확산과 마이크로서비스 기반 애플리케이션의 증가로 인해 운영팀은 수많은 반복적인 작업과 장애 대응에 시달리고 있습니다. 야놀자는 이러한 운영 과제를 해결하기 위해 Amazon Bedrock AgentCore를 활용한 AIOps Agent 구축 프로젝트를 진행했습니다.
이 글에서는 야놀자가 6개 팀, 14명의 엔지니어와 함께 6주간 AWS와 협력하여 어떻게 6개의 AI Agent를 구축하고, 수동 업무 시간을 50% 이상 감소시켰는지 소개합니다.
야놀자 소개
야놀자는 여행과 레저 플랫폼을 제공하는 기업으로, NOL, 인터파크투어, 트리플 등의 브랜드를 통해 항공권, 숙박, 패키지, 교통, 공연, 전시, 스포츠 경험을 제공합니다. 대규모 트래픽을 처리하는 클라우드 인프라를 운영하며, DevOps, Cloud Strategy, DB Engineering, Datacenter Engineering, FinOps, SRE, Developer Platform Engineering 등 여러 인프라 팀이 24/7 운영을 담당하고 있습니다.
AIOps 도입 배경
야놀자의 인프라 팀이 직면한 운영 과제는 다음과 같습니다.
1. 반복적인 수동 업무의 증가
매일 평균 8건 이상의 운영 문의가 발생했으며, BaseHelm 버전 확인, EKS Canary 배포 상태 조회 등 정형화된 질문이 반복되었습니다. 담당자의 업무 부하에 따라 응답 시간이 불균일했고, 이는 개발팀의 생산성 저하로 이어졌습니다.
2. 장애 대응 프로세스의 비효율성
장애 발생 시점과 포스트모템 작성 사이에 최대 2주의 시간 간극이 발생했습니다. 장애 히스토리가 Confluence, Jira, Slack에 분산되어 있어 과거 사례를 참고하기 어려웠고, 유사한 장애가 반복적으로 발생했습니다.
3. 복잡한 인프라 진단 과정
IDP(Internal Developer Platform) 장애 발생 시 수동으로 로그를 분석하고 원인을 파악해야 했습니다. ECS 인프라 생성 실패, 런타임 환경 이슈 등 다양한 문제를 진단하는 데 많은 시간이 소요되었습니다.
4. 데이터베이스 알람 대응의 어려움
DB 알람 발생 시 Datadog과 Grafana 메트릭을 수동으로 확인하고, 슬로우 쿼리를 분석하며, 관련 개발팀 담당자를 찾아 연락하는 과정이 필요했습니다. 이로 인해 MTTR(Mean Time To Resolution)이 평균 10분 이상 소요되었습니다.
5. 비용 관리의 복잡성
AWS 비용 확인 절차가 복잡하고, 비개발자가 비용 데이터를 이해하기 어려웠습니다. 비용 절감 정보를 획득하는 것도 쉽지 않았습니다.
이러한 과제를 해결하기 위해 야놀자는 AI Agent 기반 인프라 운영 자동화 솔루션 구축을 결정했고, 총 7개 팀에서 14명의 엔지니어가 참여하여 6주간 Full-day Sprint 방식으로 개발을 진행했습니다.
AIOps 구축 계획
목표
야놀자는 “AI Agent Solution for Pain Points”라는 비전 아래, 실질적인 문제 해결에 집중했습니다. 반복적이고 정형화된 인프라 업무의 자동화를 통해 운영 효율성을 높이는 것이 핵심 목표였습니다.
1. 정량적 목표: 수동 업무 시간 50% 이상 감소
매일 반복되는 운영 문의, 장애 대응, 비용 확인 등 정형화된 수동 업무를 절반 이하로 줄이는 것을 목표로 했습니다. 단순한 자동화를 넘어 팀이 더 높은 가치의 업무에 집중할 수 있