Search

클라우드 환경에서의 비디오 인텔리전스 구현 : TwelveLabs로 시작하는 AI 영상 분석 5부 – 비디오 임베딩을 위한 Vector DB 비교

URL
생성 일시
2026/03/30 02:06
최종 편집 일시
2026/03/30 02:06
태그
AWS
파일과 미디어
배경 이 블로그 시리즈에서는 TwelveLabs의 비디오 인텔리전스 기술을 AWS 클라우드 환경에서 활용하는 방법을 단계별로 살펴봤습니다. 1편과 2편에서는 VoD 및 준실시간 환경에서의 비디오 분석 파이프라인을 구축했고, 3편에서는 Strands Agent를 활용한 Agentic video engine을 구현했습니다. 그리고 4편에서는 Amazon Bedrock에서 제공하는 TwelveLabs Marengo 3.0의 멀티모달 임베딩 전략과 검색 방법론(Fused Embeddings, Score-based Fusion, RRF, Intent-based Routing)을 깊이 있게 다뤘습니다. […] || 배경 이 블로그 시리즈에서는 TwelveLabs의 비디오 인텔리전스 기술을 AWS 클라우드 환경에서 활용하는 방법을 단계별로 살펴봤습니다. 1편과 2편에서는 VoD 및 준실시간 환경에서의 비디오 분석 파이프라인을 구축했고, 3편에서는 Strands Agent를 활용한 Agentic video engine을 구현했습니다. 그리고 4편에서는 Amazon Bedrock에서 제공하는 TwelveLabs Marengo 3.0의 멀티모달 임베딩 전략과 검색 방법론(Fused Embeddings, Score-based Fusion, RRF, Intent-based Routing)을 깊이 있게 다뤘습니다. 시리즈의 마지막 편인 이번 블로그에서는, 4편에서 다룬 임베딩 전략을 실제 서비스에 적용할 때 반드시 답해야 하는 질문을 다룹니다: “생성된 비디오 임베딩을 어디에 저장하고, 어떻게 효율적으로 검색할 것인가?” 비디오 임베딩은 일반적인 텍스트나 이미지 임베딩과는 다른 특성을 가집니다. Marengo 3.0은 하나의 비디오를 시간 단위의 세그먼트로 나누어 각각에 대해 512차원 벡터를 생성하므로, 짧은 클립이라도 수 개에서 수십 개의 벡터가 만들어지고, 장시간 영상은 수백~수천 개의 벡터를 생성합니다. 비디오 라이브러리의 규모가 커질수록 관리해야 할 벡터의 수는 빠르게 증가하며, 이를 효율적으로 저장하고 유사도 기반으로 빠르게 검색할 수 있는 인프라가 필요합니다. 이때 어떤 벡터 저장소를 선택하느냐에 따라 검색 레이턴시, 운영 비용, 확장성, 그리고 기존 인프라와의 통합 방식이 크게 달라집니다. 예를 들어, 비디오 메타데이터에 대한 키워드 검색과 임베딩 기반 시맨틱 검색을 동시에 수행해야 하는 경우와, 단순히 대규모 벡터를 저렴하게 저장하고 top-k 검색만 수행하면 되는 경우는 적합한 서비스가 다릅니다. 또한 이미 관계형 DB를 운영 중인 환경에서 벡터 검색을 추가하는 것과, 처음부터 벡터 전용 인프라를 구축하는 것도 서로 다른 접근이 필요합니다. AWS에서는 벡터 데이터를 저장하고 유사도 검색을 수행할 수 있는 여러 서비스를 제공합니다. 이번 블로그에서는 그 중 서로 다른 설계 철학을 가진 두 가지 서비스에 실제 Marengo 3.0 비디오 임베딩을 저장하고 검색하는 과정을 단계별로 살펴봅니다: Amazon OpenSearch Serverless — 풀텍스트 검색과 벡터 검색을 동시에 지원하는 관리형 서비스입니다. 비디오 메타데이터에 대한 키워드 검색과 임베딩 기반 시맨틱 검색을 하나의 인프라에서 수행할 수 있어, 하이브리드 검색이 필요한 시나리오에 적합합니다. Amazon S3 Vectors — 2025년에 출시된 S3 네이티브 벡터 저장/검색 서비스입니다. S3의 확장성과 내구성을 기반으로 대규모 벡터를 저렴하게 저장하고 검색할 수 있으며, 별도의 클러스터 관리 없이 빠르게 시작할 수 있습니다. 각 서비스별로 설정부터 임베딩 저장, 검색까지의 과정을 코드와 함께 설명하고, 동일한 환경에서 측정한 성능 데이터도 함께 공유합니다. 테스트 환경 비디오 에셋과 임베딩 테스트에는 다양한 규모의 비디오 10개(총 약 1GB)를 사용했습니다. 짧은 클립(5~20MB, 1분 이내)부터 장시간 스포츠 경기 영상(200~300MB, 수십 분)까지 포함하여, 비디오 길이와 크기에 따른 임베딩 특성 차이를 확인할 수