배경 비디오는 단순한 단일 데이터 스트림이 아닙니다. 시간 축을 따라 visual(화면 시각 정보), audio(소리 이벤트), speech/transcription(대화 내용)이 동시에 공존하는 복합 매체입니다. 따라서 비디오 검색 쿼리는 “완전히 시각적”이거나 “완전히 전사(transcription)”인 경우가 드뭅니다. 예를 들어, “Q3 세일즈 장표를 발표하는 여성의 모습”이라는 쿼리는 시각 정보, 대화 내용, 그리고 오디오 정보를 모두 포함해야 합니다. TwelveLabs의 Marengo 3.0은 모든 모달리티(비디오 […] || 배경
비디오는 단순한 단일 데이터 스트림이 아닙니다. 시간 축을 따라 visual(화면 시각 정보), audio(소리 이벤트), speech/transcription(대화 내용)이 동시에 공존하는 복합 매체입니다. 따라서 비디오 검색 쿼리는 “완전히 시각적”이거나 “완전히 전사(transcription)”인 경우가 드뭅니다. 예를 들어, “Q3 세일즈 장표를 발표하는 여성의 모습”이라는 쿼리는 시각 정보, 대화 내용, 그리고 오디오 정보를 모두 포함해야 합니다.
TwelveLabs의 Marengo 3.0은 모든 모달리티(비디오 프레임, 음성, 자막 등)를 하나의 통합 벡터 공간(shared latent space)으로 변환해 “any-to-any” 검색(텍스트 → 비디오, 이미지 → 비디오)을 가능하게 합니다. 이는 멀티모달 검색 경험의 근간이 되는 기술로, 기존 시스템의 근본 한계를 극복합니다.
하지만 멀티벡터 아키텍처는 역사적으로 여러 벡터 인덱스를 관리하는 복잡성과 여러 벡터 유형의 출력을 병합하는 어려움 등 또 다른 도전 과제를 제시합니다.
Multi-Vector 검색의 핵심 과제
3개의 모달리티 임베딩을 분리 제공하는 것은 강력한 기능이지만, 동시에 새로운 시스템 설계 과제를 만들어냅니다. 단순히 “벡터 검색”이 아니라, 모달리티별 가중치 부여, 멀티 벡터 반환 전략, 전략적인 라우팅, 그리고 랭킹과 스코어 보정과 같은 과제를 해결해야 합니다. 해당 블로그에서는 1) Fused Embeddings, 2) Multi Vector Retrieval(Score-based, RRF), 3) Intent based routing 3가지 비디오 임베딩 및 검색 전략을 설명하고 시스템 구현 가이드를 제공합니다.
접근법 1 – Fused Embeddings
가장 단순한 방식으로 세그먼트 별 저장 시점에 3개 모달리티 임베딩을 하나의 벡터로 합칩니다. Marengo 3.0은 하나의 비디오 클립에 대해 visual, audio, transcription 세 개의 독립된 임베딩 벡터를 반환합니다. Fused 방식은 저장 시점에 3개 벡터를 가중 합산 후 세그먼트별 정규화하고 하나의 인덱스로 통합하는 것입니다. (세그먼트 별 모달리티가 없을 경우, 0으로 고정)
시각적으로 무거운 비디오 검색 벤치마크와 많은 시각 중심 아카이브를 위해, TwelveLabs가 권장하는 기본 융합 가중치는 Visual (0.8), Audio (0.1), Transcription (0.05)입니다.
[그림 1. Fused embedding 공식]
Fused embeddings 방식은 통합된 1개의 인덱스로 통합하는 방법으로 관리가 편하고 비용이 저렴하지만 아래와 같은 한계가 있습니다.
한계
비가역적: 가중치가 적용된 임베딩 변경이 불가함으로 가중치 변경 시, 영상을 재처리해야 합니다.
쿼리 의도와 무관한 고정 가중치 적용: visual을 0.8로 부여했다면 “군중 환호”와 같은 오디오 중심 쿼리에도 visual 가중치가 0.8로 적용되어 쿼리의 의도와 무관하게 시각 정보가 지배적입니다.
디버깅 불가: 검색 결과가 어떤 모달리티가 기여했는지 분석할 수 없습니다.
[그림 2. 쿼리 의도(intent)와 무관한 고정 가중치 적용 예시]
위와 같은 한계에도 불구하고 기업에서 관리하는 영상의 포맷이 일관되고 몇번의 테스트를 통해 가중치를 설정할 수 있다면 비디오 임베딩 및 검색을 비용 효