Search
🏞️

왜 막상 배포하면 효과가 없지? 타겟 지표에 맞는 ML모델 train/eval 설계하기

URL
생성 일시
2025/11/28 07:05
최종 편집 일시
2025/11/28 07:08
태그
하이퍼커넥트
ML
파일과 미디어
ML 벤치마크 태스크에서는 타겟 메트릭이 정해져 있고 모델링과 최적화에 집중하는 경우가 많습니다. 하지만 실제 서비스에 ML 모델을 적용할 때는, 무엇을 목표로 삼고 어떤 지표에 초점을 맞춰야 할지부터 정하는 과정이 매우 중요합니다. 비즈니스 목표가 아닌 잘못된 지표를 최적화 하는 경우, 모델 성능을 계속 높여도 서비스에서 아무런 효과가 발생하지 않는 상황을 겪기도 됩니다.
이번 포스트에서는 하이퍼커넥트 AI 조직이 매치그룹 내 데이팅 브랜드와 협업한 프로젝트를 각색한 사례를 소개합니다. 문제 정의에서 시작해 모델 학습 목표 설정과 데이터셋 구축, 오프라인 평가, 온라인 A/B 테스트, 실제 배포까지의 흐름을 따라가며, 비즈니스 문제를 ML 문제로 재구성하고 이를 실제 서비스 성과와 어떻게 연결했는지 살펴봅니다.

문제 상황

특정 서비스에 아이템과 각 아이템을 나타내는 속성(attribute)들이 있는 상황을 살펴봅시다. 만약 광고 추천이라면 아이템은 특정 상품, 속성은 상품별 광고 카피가 될 수 있습니다. 넷플릭스, 유튜브 등의 영상 플랫폼에서는 썸네일이 속성에 해당될 수 있습니다.
일반적으로 유저들이 아이템들을 살펴볼 땐 처음부터 모든 정보들이 노출되지 않습니다. 광고라면 플랫폼에서 노출시키는 아이템별 광고 카피 중 하나를 보게 되고, 영상을 볼 땐 썸네일이 우선적으로 나타나게 됩니다. 처음 노출된 속성은 유저의 아이템에 대한 첫인상을 결정하고, 나아가 유저가 해당 아이템에 대해 구매·소비 등의 전환으로 이어질지에 대해서도 중요한 역할을 하게 됩니다. 즉, 사용자에게 특정 아이템의 여러 속성 중 어떤 것을 처음에 노출시킬지 잘 선택하는 것만으로도, 전환율을 늘릴 수 있습니다. 이후에는 처음에 노출될 속성을 대표 속성(primary attribute)이라고 표현하겠습니다.
그렇다면 유저들에게 전환율을 높일 수 있는 대표 속성을 어떻게 찾을 수 있을까요? 아이템에 포함된 여러개의 속성 중에서, 각 속성을 랜덤하게 대표 속성으로 선택해 유저들에게 노출시켰을 때 전환율을 비교해볼 수 있습니다. 문제를 multi-armed bandit 문제로 바라보는 관점인데요, 문제점이 있습니다. 바로 새로운 아이템이 생기거나 속성이 업데이트 되면 처음부터 다시 exploration을 해야한다는 점입니다. 전환율이 더 높은 속성을 노출시킬 수 있던 기회비용이 드는 것이기 때문에 공짜가 아니고, 최적의 대표 속성을 찾기까지 시간도 걸립니다.
만약 아이템에 포함된 여러 속성 중, 가장 높은 전환율을 보일 대표 속성을 미리 예측해주는 AI 모델이 있다면 어떨까요? 새로 업로드 된 아이템이나 속성이라도 별도의 exploration 단계 없이 아이템의 전환율을 극대화할 수 있을 것입니다. 이후 글에서는 이 문제를 AI 모델이 풀 수 있는 문제로 변환하기 위해 어떤 과정들을 거쳤는지를 소개드리겠습니다.

데이터로 문제 구체화하기

이번 프로젝트의 목표는 한 아이템의 여러 속성 중에서 유저에게 가장 높은 전환율을 보일 속성을 고르는 모델을 학습하는 것 입니다. 이 모델을 학습하기 위해서는, 학습 및 평가를 위한 데이터를 구축하는 것이 첫번째 작업입니다.
유저가 아이템을 보고나면, 전환이 발생할 수도, 발생하지 않을 수도 있습니다. 이 때 대표 속성이 무엇이었는지가 남아있다면, 각 속성에 대한 전환 여부(0/1) 데이터를 구축할 수 있습니다.
전환 데이터 예시:
user
item
Item feature 1
Item feature 2
primary attribute
conversion
User A
Item X
Category 1
2.3
Attribute 1
1
User B
Item X
Category 1
2.3
Attribute 1
0
User C
Item X
Category 1
2.3
Attribute 2
1
User D
Item Y
Category 2
3.5
Attribute 3
0
학습 방식을 고안하고 그 방식이 망가지는 상황은 없을지 이론적으로 검토하기 위해, 위 데이터의 주요 column을 서로 종속관계가 있는 확률변수로 다루겠습니다. ’유저가 아이템의 속성을 보고 전환 여부가 결정되는 상황’에서 직접 드러나는 종속관계를 확률 그래프 모델(PGM)로 다음과 같이 표현할 수 있습니다: