Search

연관 키워드 추천

URL
생성 일시
2026/01/09 02:07
최종 편집 일시
2026/01/09 02:07
태그
여기어때
파일과 미디어
|| 안녕하세요. 여기어때 랭킹추천개발팀 존 입니다. 오늘 공유할 내용은 고가의 GPU 장비를 기반으로 하는, 복잡하고 거대한 모델링에 관한 이야기가 아닙니다. 물론 모델의 구조가 복잡하고 클수록 더 뛰어난 성능을 발휘하는 것이 일반적이지만 해결하고자 하는 문제에 따라서는 가벼운 고전 모델을 활용해도 충분히 만족할 만한 결과를 얻을 수 있습니다. 오늘은 이러한 접근 방식을 통해 “연관 키워드 추천” 시스템을 구축한 경험을 공유하려 합니다. SOTA 기술이 아닌, 데이터의 특성에 맞는 적정 기술을 선택하는 과정에 관한 이야기 입니다. 연관 키워드 추천 사용자가 입력한 검색어와 연관성이 높은 키워드를 제공하여 원하는 정보를 더 빠르고 효과적으로 탐색할 수 있도록 지원하는 기능입니다. 우리는 연관 키워드의 조건을 다음 두 가지로 정의했습니다. 동시 검색 패턴 사용자가 입력한 검색어와 실제로 함께 자주 검색되는 키워드여야 합니다. 지역적 & 맥락적 타당성 사용자가 결과를 봤을 때 직관적으로 납득할 수 있어야 합니다. 예를 들어 “경주”를 검색 했다면 경주 내 명소인 “황리단길”이나 인접 도시인 “포항”, “울산”이 추천 되어야 합니다. 데이터 들여다보기 정의한 연관 키워드를 모델링 하기 위해 실제 사용자들의 검색 로그를 분석해 보았습니다. 데이터는 다음과 같은 특징이 있었습니다. Synonyms 여기어때 국내 숙소 검색 환경은 탐색할 키워드를 사용자가 직접 타이핑하는 엔터 검색 방식과 시스템이 제안하는 자동완성 키워드를 선택하는 방식 모두 지원합니다. 이로 인해 동일한 의도를 가진 검색어라도 다양한 형태로 파편화되어 입력 됩니다. 강릉, 강릉시, 강원도 강릉 제주, 제주시, 제주도 Domain-Specific 여행 및 숙소 도메인의 검색 키워드는 일반적인 웹 검색과 다른 뚜렷한 특징을 보입니다. 명사 중심: 서술형 문장이나 형용사구 기반의 자연어 형태보다는 명확한 대상을 지칭하는 고유명사 위주의 입력 패턴이 많습니다. 주요 키워드: 검색어의 대다수는 지역명, 지하철역, 주요 명소, 특정 제휴점명 등 위치나 장소를 특정하는 키워드로 구성됩니다. 기타 키워드: 숙소 유형(호텔, 모텔, …)이나 시설 정보(자쿠지, 온천, …)를 직접 타이핑하여 입력하는 등 좀 더 구체적인 니즈가 반영된 키워드가 유입 되기도 합니다. Long-Tail 분포 상위 5%의 인기 키워드에 트래픽의 40%가 집중된 반면, 나머지 95%의 하위 키워드군이 전체 유입의 60%를 견인하는 전형적인 롱테일(Long-tail) 분포가 나타납니다. 특히 하위 키워드 영역은 인기 키워드 보다 구체적인 세부 지역이나 특정 명소를 지칭하는 검색어들이 많이 포함되어 있습니다. Long-Tail Distribution Sequence 유형 사용자별 검색 기록을 시계열로 나열해 보니 우리가 정의 했던 지역적 & 맥락적 타당성을 모델링 할 수 있을 만한 패턴들이 발견 되었습니다. 지역 → POI: 경주 → 황리단길 , 강릉 → 정동진 → 경포대 지역 → 인접지역: 경주 → 포항 , 강릉 → 양양 모델 선정 하기 로그 데이터를 살펴보니 데이터에 내재된 사용자의 검색 패턴을 학습하는 것만으로도 우리가 정의한 ‘연관 키워드’의 요건을 충분히 충족할 수 있다고 판단했습니다. 이에 최적의 모델 구조를 결정하기 위해 다음과 같은 세 가지 핵심 기준을 세웠습니다. 순서성 VS 근접성 연관 키워드 추천에 있어 ‘A → B’와 ‘B → A’의 검색 순서는 크게 중요하지 않습니다. 두 키워드가 서로 관련이 있다는 사실 자체가 중요하기 때문입니다. 따라서 문장 내 단어의 순서나 방향성을 엄격하게 따지는 모델보다는 얼마나 가까운 위치에서 함께 등장했는가를 포착하는 근접성 중심의 접근이 더 유효하다고 판단했습니다. 키워드 간 동적 VS 전역적 관계 우리가 다루는 검색 키워드는 대부분 고유명사 입니다. ‘제주도’와 ‘제주공항’의 관계는 특정 문장 안에서만 성립하는 것이 아니라 전체 데이터셋에서 통용되는 전역적인 관계 입니다. 따라서 문맥에 따라 단어 간