||
플랫폼 서비스를 운영하는 조직이라면 장애나 이슈를 빠르게 감지하고 즉시 대응하기 위해 온콜(On-Call) 제도를 운용하고 있을 겁니다. 요기요 모바일팀의 온콜 담당자는 매일 크래시와 성능 지표를 확인하고, 앱 리뷰나 고객 피드백 같은 VoC 를 살피며 분석합니다.
그러나 온콜 담당자는 반복적인 온콜 업무로 일평균 30분 이상 고정적인 시간이 소비되어 본래 업무 생산성이 떨어질 수 밖에 없는 구조입니다. 모바일팀에서는 이를 해결하기 위해 반복되는 온콜 담당자의 루틴을 AI 에게 위임해 보기로 했고 이를 어떻게 지능화하고 자동화하여 온콜 담당자의 생산성을 90% 이상 향상시킬 수 있었는지 소개해 드리겠습니다.
Part 1: 분석은 AI에게
Part 2: 판단은 사람이
배경
모바일팀은 최고의 사용자 경험을 위해 3가지 지표를 정기적으로 확인하고 있습니다.
Firebase Crashlytics 와 Datadog 을 사용한 크래시 분석
리포팅 채널과 App Review 를 통한 VoC 분석
Datadog 을 사용한 성능지표 분석
온콜 담당자는 Slack 에 연결된 Firebase 알림을 확인하고 크래시 발생 건수와 중요도에 따라 원인을 분석하여 Jira 티켓을 생성하고 수정하였습니다. 또한 Slack 에 연결된 VoC 창구를 통해 사용자의 의견을 분석하고, 좋은 의견은 최고의 사용자 경험을 위해 배포에 반영하기도 합니다. 모바일팀은 정기적인 미팅을 통해 Datadog 의 성능지표를 분석하고 SLI 가 목표를 달성하지 못한다면 원인을 분석하여 수정합니다.
이와 같은 기존 온콜 업무 프로세스에서 3가지 문제를 발견했습니다.
반복적입니다. 매일 같은 채널을 확인하고 같은 패턴으로 분석하여 판단을 내립니다. 온콜 담당자는 시간을 반복적으로 소모하는 문제가 있습니다.
컨텍스트의 전환이 큽니다. 크래시 하나를 확인하려면 Slack, Firebase, Jira, Source Code, Github 등 여러 도구를 오가며 정보를 조합해야 하므로 생산성이 떨어집니다.
사람의 판단과 AI가 해도 되는 작업이 섞여 있습니다. 코드 기반으로 크래시의 원인을 분석하고, VoC 를 요약하고 정리하는 역할은 AI 가 잘하는 영역입니다. 긴급도를 판단하고 대응방향을 설정하는 것은 사람이 해야 할 영역입니다.
온콜 담당자의 시간을 본래 업무와 중요한 판단에 집중시키기 위해 Part 1 에서는 반복되는 분석 업무를 AI 에게 위임하고 자동화 하기로 했습니다. Part 1 에서는 크래시와 앱 리뷰 자동 분석 기능을 만든 여정을 소개드리겠습니다.
Skills
첫 번째는 Claude Skills 부터 시작했습니다. 온콜 담당자가 직접 컨텍스트를 전환하지 않고 로컬에서 간단한 명령어로 크래시와 앱 리뷰를 분석하게 하고 싶었고, 다음과 같은 장점을 얻을 수 있기 때문입니다.
스킬 파일 자체가 문서가 됩니다. 자연어로 작성된 스킬은 누구나 쉽게 로직의 흐름을 이해할 수 있고, 이후 AI 를 사용하여 파일 기반의 로직을 이관할 때 용이합니다.
빠르게 실험하고 검증할 수 있습니다. 이 작업을 AI 가 잘 할 수 있는지 로컬에서 빠르게 확인 가능합니다. 안되면 프롬프트를 고치면 되므로 실패 비용이 거의 없습니다.
스킬로 크래시, 앱 리뷰를 분석시킬 도구는 Slack 으로 통일했습니다. 이는 기존 문제였던 도구의 컨텍스트 전환 비용을 줄이기 위해 진입점을 통일하기 위함이고, 분석 결과물이 팀의 히스토리가 될 수 있기 때문입니다.
Skill Design
스킬의 설계는 그림과 같이 봇을 통해 슬랙의 메시지를 읽어 정보를 가져오고 분석하여 스레드에 결과를 남깁니다.
/crash-analytics 어제 크래시 내용 분석해 줘
/crash-analytics 오늘 발생한 Android 크래시 분석해 줘
/crash-analytics 최근 3일간 iOS 크래시 분석해 줘
/app-review-comment 이번 주 월요일 앱 리뷰 내용 분석해 줘
/app-review-comment 지난 주 월요일부터 지난주 금요일까지 앱 리뷰 내용 분석해 줘
/