Search

낯선 오타와 싸워서 이기고 싶은 마음

URL
생성 일시
2026/04/23 04:06
최종 편집 일시
2026/04/23 04:06
태그
SSG
파일과 미디어
|| 오타보정 Deep Learning 도입기 안녕하세요. 검색추천팀 반영성입니다. SSG.COM에서 고객의 상품 탐색 경로는 아래와 같이 A, B 두 가지로 나뉠 수 있습니다. A: 검색 → 상품 노출 → 상품 클릭 B: 그 외의 경로를 통한 상품 노출 → 상품 클릭 그리고 사이트 전체에서 발생하는 상품 노출에 대해 위 A 경로는 대략 30%의 지분을, 클릭에 대해서는 35%의 지분을 차지합니다. 노출 비중 대비 클릭 비중이 높죠. 그러기 때문에 SSG.COM에서 검색은 고객의 진입부터 상품도달까지 주요하며 효율적인 여정을 책임진다 말할 수 있습니다. 이런 점을 검색추천팀에서도 인지하고 있기에 오타 검색어에도 그럴싸한 결과를 보여주기 위해 여러 수단을 사용하며 그 중에서 꽤나 오랫동안 검색 도메인에서 중요하게 다루어진 것은 오타보정 영역입니다. 이런 오타보정이 기존에 가지고 있던 한계와 그로 인한 문제, 해결과정, 잔존하는 과제에 대해서 총 5개의 단락을 통해 SSG.COM의 오타보정 개선 과정을 말씀드리도록 하겠습니다. 기존 오타 처리 프로세스 개선 방안 탐색과 선정 데이터 정의와 수집 과정 Hallucination 방지를 위한 안전장치 도입 결과와 앞으로의 과제 1. 기존 오타 처리 프로세스 기존에도 오타를 극복하기 위해 다수의 방법론을 이용하고 있었습니다. 그 중 가장 주요하게 작동했던 수단은 검색 로그 기반 오타 집계 처리였으며 엄격한 조건에 따른 정타/오타 쌍은 아래와 같이 추출했습니다. w 검색어에 대해 검색 실패 발생 t초 이내에 w` 검색어로 검색 수행 w` 검색어에 상품 클릭 발생 w와 w` 사이 편집거리가 임계값 이하 1~4의 조건에 부합하는 로그가 d일 이내에 n회 발생일 경우 오타보정 데이터에 추가 위 방식은 상당히 효과적입니다. 편집거리와 명시적인 고객의 반응을 이용하기 때문에 실제 잘 작동하는 오타-정타 쌍을 찾을 수 있습니다. 다만 큰 단점은 사후적 대응이라는 점입니다. 기존에 존재하지 않은 패턴에 대해서는 무조건 초기의 검색 실패를 겪어야만 합니다. 그리고 오타는 정타에 비해 발생 확률이 낮습니다. 그러기 때문에 데이터 추출 조건에서 1번 과정이 여러번 발생하는 것 자체를 관찰하기가 어렵습니다. 즉, 정확도는 높지만 커버리지가 상당히 낮은 방법이라는 뜻입니다. 2. 개선 방안 탐색과 선정 기존의 방식이 가진 한계를 극복하는 새로운 도구가 필요했습니다. 그게 오타보정을 더 잘하는 것이 될 수도 있고 또는 똑똑한 검색을 구축하여 오타를 알아서 견뎌내는 검색 시스템을 만드는 것일 수도 있습니다. 그래서 보다 더 오타에 강건한 검색 시스템을 달성하기 위해 다음 3개의 방안을 검토했습니다. 검색어 임베딩을 이용한 다중 질의 검색어, 상품 임베딩을 이용한 벡터검색 오타-정타 데이터를 이용한 번역 모델 그리고 각각 다음과 같은 장점과 단점이 존재했습니다. 검색어 임베딩을 이용한 다중 질의 장점 기존에 비해 커버리지가 높은 오타보정 기존 검색 시스템의 elastic search와 함께 사용 가능 단점 다중 질의로 인한 검색 시스템 부하 검색어 임베딩 계산 API 호출에 따른 서버 리소스 부담 검색어, 상품 임베딩을 이용한 벡터검색 장점 기존에 비해 커버리지가 높은 오타보정 검색 결과 정확도 증가 단점 높은 TPS를 견딜만한 충분한 GPU (벡터DB 클러스터) 새로운 검색 파이프라인 설계 오타-정타 데이터를 이용한 번역 모델 장점 기존에 비해 커버리지가 높은 오타보정 비교적 적은 GPU 필요 단점 false positive 발생 가능성 운영 관리 포인트 추가 결국 가장 큰 문제는 물적 리소스입니다. 서버를 새로 사는 건 오래 걸리지만 운영 인력을 갈아넣는 것은 지금 당장 할 수 있습니다. 그래서 소기의 목적이 달성 가능하며 동시에 문제의 크기가 작다 보이는 “오타-정타 데이터를 이용한 번역 모델” 도입을 결정하였습니다. 3. 데이터 정의와 수집 과정 “오타-정타 데이터를 이용한 번역 모델”을 위해서는 오타-정타 쌍이 필요