Search

AI로 혁신하는 70년 언론사: 한국일보의 AWS 기반 인물 사진 자동 분류 및 AI 검색 시스템 구축 사례

URL
날짜
2025/08/04
태그
1. 한국일보 회사 소개 한국일보는 70년이 넘는 역사 속에서 저널리즘 가치를 지켜온 대한민국 대표 언론사입니다. 최근 들어 한국일보는 단순한 디지털 전환을 넘어, 생성형 AI와 클라우드 기반 기술을 선도적으로 도입하며 데이터 기반 뉴스 생산과 독자 맞춤형 서비스 혁신에 박차를 가하고 있습니다. 한국일보는 저널리즘의 본질을 지키면서도, AI 기반 콘텐츠 분류·추천 시스템 구축, 클라우드 기반 마이크로서비스 아키텍처 전환, 뉴스 아카이브의 디지털 자산화 등 다양한 영역에서 적극적인 기술 실험을 진행해 왔습니다. 특히 GenAI와 AWS 서비스를 결합한 다양한 혁신 사례는 미디어 산업 내에서 새로운 표준을 만들어가고 있습니다. 2. 인물사전 구현 필요성 및 기존 한국일보의 과제 현실적인 업무 환경과 과제 한국일보는 매일 수천 장의 보도 사진을 처리하며, 이 중 상당수가 정치인, 연예인, 기업인 등 다양한 인물이 포함된 이미지입니다. 뉴스의 특성상 신속성과 정확성이 생명인 환경에서, 사진 속 인물의 이름과 행동을 정확하게 태깅하지 못하면 기사 검색, 아카이브, 편집 공정 전반의 생산성이 급격히 떨어집니다. 기존 시스템의 한계 기존에도 인물 분류 및 태깅에 대한 수요는 꾸준히 제기되어 왔으나, 몇 가지 근본적인 한계가 있었습니다. 수동 태깅의 한계: 기자들이 이미지를 등록할 때 일일이 수기로 인물 정보를 작성해야 했으며, 이는 시간이 많이 소요될 뿐만 아니라 일관성을 보장하기 어려웠습니다. 자체 사진 뿐만 아니라 외신을 통해 제공되는 사진과의 일관성도 유지하기 힘들었습니다. 복합적인 기술적 과제: 유명 인물 식별 오류, 다중 인물 사진에서의 개별 인물 구분, 저화질 이미지 필터링 등 복합적인 과제들이 산재해 있었습니다. 이로 인해 편집자가 매일 수백 장의 사진을 직접 확인하고 보정해야 하는 부담이 지속되었습니다. 검색 효율성 문제: 기존 시스템에서는 단순한 파일명이나 기본적인 메타데이터에만 의존하여 검색이 이루어졌습니다. 기자들은 “웃고 있는 대통령 사진” 또는 “정장을 입은 연예인 사진”과 같은 구체적인 상황이나 행동을 기반으로 한 검색을 원하지만 적절한 결과를 얻기 어려웠습니다. 3. 한국일보 인물사전 시스템 구축 아이디어 아이디어 배경 PersonaDB 인물사전 시스템은 앞서 언급한 한국일보의 과제들을 해결하기 위해 설계된 GenAI 기반 인물 데이터베이스 데모 애플리케이션입니다. 기존 LLM은 이미지 내 행위나 장면 검색은 가능하지만, 유명하지 않은 인물을 정확히 인식하지 못하는 한계가 있었습니다. 아래 그림 1과 같이 인물 사진을 주고 “누구야?”라고 질문했을 때, 외모와 행동은 상세히 설명하지만, 누구인지는 알려주지 못하는 것을 확인할 수 있습니다. PersonaDB는 완전관리형 컴퓨터 비전 서비스인 Amazon Rekognition [https://aws.amazon.com/ko/rekognition/]의 유명 인사 인식 API와 유사한 얼굴 검색 기능을 활용하여 이러한 문제를 해결합니다. [https://d2908q01vomqb2.cloudfront.net/2a459380709e2fe4ac2dae5733c73225ff6cfee1/2025/08/04/Image-1024x398.png] [그림 1. LLM을 통한 사진 속 인물에 대한 질의] PersonaDB는 Amazon Rekognition과 Amazon Bedrock을 결합하여 미디어 기업이 보유한 대량의 인물 사진을 자동으로 분류하고, 자연어 기반의 맥락적 검색을 가능하게 합니다. 기존에 수작업으로 진행되던 인물 태깅 작업을 자동화하고, “웃고 있는 서장훈”, “넘어진 손흥민”과 같은 구체적이고 맥락적인 검색을 지원하여 기자와 편집자의 업무 효율성을 획기적으로 개선합니다. PersonaDB는 단순한 얼굴 인식을 넘어서 인물의 행동과 상황까지 이해하고 태깅하는 종합적인 인물 데이터베이스 데모 애플리케이션으로, 실제로 한국일보의 FACT 시스템으로 구현되어 그 효과를 입증했습니다. 한국일보의 FACT 시스템에 대한 설명은 뒤에서 좀 더 자세히 설명하겠습니다. 핵심 아이디어 PersonaDB는 네 가지 아이디어를 통해 이러한 문제를 해결합니다: 1. Auto Name Labeling: 유명 인사 기능으로 인물 이름을 전처리합니다. [https://d2908q01vomqb2.cloudfront.net/2a459380709e2fe4ac2dae5733c73225ff6cfee1/2025/08/04/1-300x166.png] [그림 2. 사진 속 유명인을 Amazon Rekognition의 유명 인사 기능을 사용한 모습] Amazon Rekognition의 유명인사 API를 사용하여 유재석의 사진을 입력하면, “유재석”이라는 인물명을 반환합니다. 이를 통해 수작업으로 진행하던 인물 라벨링을 어느 정도 전처리할 수 있습니다. 2. Classification: 유사한 얼굴 검색 기능을 활용합니다. [https://d2908q01vomqb2.cloudfront.net/2a459380709e2fe4ac2dae5733c73225ff6cfee1/2025/08/04/2-300x180.png] [그림 3. Collection에 유사한 얼굴 검색 기능을 사용한 모습] Amazon Rekognition은 이전에 분석된 얼굴의 벡터 정보를 Collection [https://docs.aws.amazon.com/ko_kr/rekognition/latest/dg/collections.html]에 저장합니다. 새로운 유재석의 다른 사진이 입력되면, 유사한 얼굴 검색 API를 통해 Collection 내에서 유사한 얼굴을 검색하고 유사도 점수를 반환합니다. 애플리케이션에서는 이 유사도 점수가 높으면 동일 인물로 판단하여 기존에 태깅된 이름을 그대로 활용할 수 있습니다. 이러한 유사도 기능을 통해 특정 인물의 모든 사진을 체계적으로 그룹화하고 일관된 태깅을 자동으로 적용할 수 있습니다 3. Name Inference: 기존 텍스트 데이터를 활용합니다. [https://d2908q01vomqb2.cloudfront.net/2a459380709e2fe4ac2dae5733c73225ff6cfee1/2025/08/04/3-300x125.png] [그림 4. Amazon Bedrock에게 기사 내용에서 인물명만 추출해달라고 요청하는 모습] Amazon Rekognition의 유명인사 API로 식별되지 않는 인물들을 위한 해결책입니다. 신문기사에는 사진과 함께 기사 내용이있기 때문에, Amazon Bedrock [https://aws.amazon.com/ko/bedrock/]을 활용하여 “기사 내용에서 인물명만 추출해줘”라고 요청하면 “김철수, 김영희, 이순자”와 같이 기사에 등장하는 인물명들을 추출할 수 있습니다. 유명인사로 검색되지 않는 동일한 인물의 사진이 여러 기사에서 반복 등장할 때마다, 해당 기사들에서 인물명을 계속 수집합니다. 예를 들어 어떤 기업 CEO의 사진이 10개 기사에 나왔다면, 각 기사에서 “김철수 대표”, “김철수 CEO”, “김철수 대표이사”처럼 같은 이름이 반복해서 나타날 것입니다. 이렇게 축적된 데이터에서 가장 많이 등장하는 이름을 찾아 해당 인물의 이름으로 추론합니다. 데이터가 충분히 축적되면, 관리자가 ‘이름 자동확정’ 버튼을 클릭하여 가장 빈도가 높은 인물명으로 해당 인물의 모든 사진에 일괄적으로 이름을 라벨링할 수 있습니다. 구체적으로 ‘이름 자동확정’ 버튼을 클릭한 인물과 유사한 얼굴을 Collection에서 찾고, 해당 얼굴들과 매핑된 이름을 count하여 가장 많이 등장한 인물명으로 확정합니다. 이후에 동일 인물의 사진이 들어오면, 아이디어 2의 유사한 얼굴 검색 기능으로 Collection의 유사한 얼굴을 찾고, 해당 얼굴과 매핑된 이름을 참고하여, 이름을 부여합니다. 4. Behavior: 인물의 행위까지 알 수 있다면? [https://d2908q01vomqb2.cloudfront.net/2a459380709e2fe4ac2dae5733c73225ff6cfee1/2025/08/04/4-300x131.png] [그림 5. Amazon Bedrock에게 사진 속 인물의 행위를 묘사해달라고 요청하는 모습] Amazon Bedrock에 “사진 속 인물의 행위를 묘사해줘”라고 입력하면, “해당 인물은 넘어져 있습니다”와 같은 구체적인 행동설명을 제공합니다. 이를 통해 단순한 인물 식별을 넘어 상황과 맥락까지 파악할 수 있어, “넘어진 손흥민”, “웃고 있는 유재석”과 같은 세밀한 검색이 가능해집니다. PERSONADB의 통합적 접근 이 네 가지 아이디어가 결합되면서 PersonaDB는 다음과 같은 혁신적인 워크플로우를 제공합니다: 1. 자동 인물 식별: Rekognition으로 유명인사 자동 인식 2. 얼굴 분류: Collection에 얼굴 벡터를 저장하여 동일 인물 분류 3. 텍스트 연계: Bedrock으로 기사 내용에서 인물명 추출하여 인물명을 추론 4. 행동 분석: Bedrock으로 인물의 행위와 상황 자동 태깅 이러한 통합적 접근을 통해 PersonaDB는 미디어 업계의 오랜 과제였던 인물 사진 분류와 검색 문제를 근본적으로 해결하는 솔루션이며, 실제로 한국일보의 FACT 시스템으로 구현되어 성공적인 결과를 입증했습니다. PERSONADB 아키텍처 [https://d2908q01vomqb2.cloudfront.net/2a459380709e2fe4ac2dae5733c73225ff6cfee1/2025/08/04/5-1024x595.png] [그림 6. 데모 애플리케이션의 아키텍처] PersonaDB는 이미지 처리, 데이터 저장, 검색의 3가지 핵심 기능을 분리한 아키텍처로 구성되어 있습니다. 이미지 처리 (AMAZON REKOGNITION) 업로드된 이미지는 Amazon Rekognition에서 처리됩니다. 유사 얼굴 검색을 통해 기존 인물 여부를 확인하고, 새로운 인물의 경우 유명인사 식별을 수행합니다. 동시에 얼굴 벡터를 생성하여 Face Collection에 저장하고, Amazon Bedrock을 통해 인물의 행동을 분석합니다. 데이터 저장 처리된 데이터는 용도별로 분산 저장됩니다: * Amazon S3: 원본 이미지 파일 저장 * Amazon DynamoDB: 인물명, Face ID, 행동 설명, 이미지 경로 등 메타데이터 저장 * Amazon Rekognition Face Collection: 얼굴 벡터 데이터 저장 검색 시스템 (AMAZON OPENSEARCH) 사용자의 검색 요청은 Amazon OpenSearch [https://aws.amazon.com/ko/opensearch-service/]에서 처리됩니다. 인물명 검색(“유재석”)부터 행동과 결합된 복합 검색(“웃고 있는 유재석”)까지 지원하며, Amazon DynamoDB [https://aws.amazon.com/ko/dynamodb/]의 메타데이터와 연동하여 관련 이미지를 반환합니다. 5. 한국일보 인물사전 FACT 시스템 A. FACT 시스템 도입 배경 이러한 문제를 해결하기 위해 얼굴 인식과 행동 분석을 자동화한 ‘FACT(Face Automate Classification Tree)’ 파이프라인을 구축했습니다. FACT라는 이름에는 “신문사답게 팩트(Fact)로 승부한다”는 의미도 담았습니다. FACT 시스템은 단순히 기술적 효율성을 높이는 것을 넘어, 기자들이 더 나은 기사 작성에 집중할 수 있도록 지원하는 것을 목표로 합니다. 인물 태깅과 분류 작업을 자동화함으로써 기자들이 본연의 업무인 취재와 기사 작성에 더 많은 시간을 투자할 수 있는 환경을 만들고자 했습니다. 앞서 소개한 PersonaDB의 4가지 핵심 아이디어는 실제 뉴스룸 환경에서 안정적이고 효율적으로 작동해야 했습니다. 한국일보는 매일 수백 장의 이미지를 처리해야 하는 현실적 요구사항을 고려하여, PersonaDB의 개념적 아이디어를 AWS Step Functions [https://aws.amazon.com/ko/step-functions/] 기반의 체계적인 워크플로우로 발전시켰습니다. AWS STEP FUNCTIONS를 통한 워크플로우 체계화의 핵심 가치 병렬 처리 최적화: PersonaDB의 개념적 아이디어를 Step Functions의 Map State [https://docs.aws.amazon.com/ko_kr/step-functions/latest/dg/state-map.html]를 활용하여 병렬 처리가 가능하도록 설계했습니다. 여러 인물이 포함된 이미지의 경우 각 얼굴을 동시에 처리하여 전체 처리 시간을 획기적으로 단축했습니다. 모니터링 및 추적: Step Functions의 실행 기록을 통해 각 이미지의 처리 과정을 상세하게 추적할 수 있어, 문제 발생 시 빠른 디버깅과 최적화가 가능합니다. 확장성 보장: 뉴스 이벤트에 따라 이미지 처리량이 급증할 수 있는 언론사의 특성을 고려하여, Step Functions의 자동 스케일링 기능을 활용해 처리량 변화에 유연하게 대응할 수 있도록 설계했습니다. 이러한 체계화를 통해 PersonaDB의 혁신적인 아이디어들이 실제 뉴스룸 환경에서 안정적이고 효율적으로 작동하는 FACT 시스템으로 완성될 수 있었습니다. B. STEPFUNCTIONS 구현 워크플로우 AWS MSP, SALTWARE를 통한 FACT 초기 인프라 구축 FACT 시스템 구축에 앞서, MSP 파트너 Saltware가 PersonaDB 데모 애플리케이션의 CDK를 활용하여 초기 핵심 인프라 구축하였습니다. 컨테이너 기반 인프라 구축: AWS ECS를 활용한 PersonaDB 애플리케이션의 컨테이너화와 클러스터 환경 설정을 담당했습니다. 이를 통해 PersonaDB가 안정적으로 배포되고 확장 가능한 환경에서 운영될 수 있는 기반을 마련했습니다. 벡터 데이터베이스 구현: PersonaDB의 핵심 기능인 시맨틱 검색을 위해 Amazon OpenSearch 기반의 벡터 데이터베이스를 구축했습니다. 이미지 메타데이터와 행동 설명을 벡터로 변환하는 임베딩 파이프라인을 구현하여 “웃고 있는 유재석”, “넘어진 손흥민”과 같은 자연어 기반 검색이 가능하도록 했습니다. 워크플로우 최적화 아이디어: FACT 시스템 구현 과정에서 Saltware 제안으로 중요한 워크플로우 개선이 이루어졌습니다. 초기 설계에서는 “유명 인물 감지 → 기존 인물 감지” 순서로 진행되었으나, 처리 효율성을 고려하여 “기존 인물 감지 → 유명 인물 감지” 순서로 변경했습니다. 이를 통해 이미 Collection에 존재하는 인물에 대해서는 불필요한 유명인사 API 호출을 방지하여 시스템 성능과 비용 효율성을 크게 개선했습니다. 이러한 PersonaDB 단계에서의 인프라 구축 경험은 이후 FACT 시스템의 아키텍처 설계와 향후 확장 계획인 “행위 검색” 기능 구현에 중요한 기반이 되었습니다. FACT는 Amazon Rekognition과 Amazon Bedrock Claude Sonnet 4를 결합해 “얼굴 탐지 → 행동 설명 → 자동 분류”를 수행합니다. * 워크플로는 네 가지 분기로 구성됩니다. * 저화질 이미지(처리 제외) * 기존인물 감지(IndexFaces → ‘Unidentified’ 저장) * 유명 인물 감지(RecognizeCelebrities → Sonnet 행동 설명) * 신규 인물 색인(SearchFacesByImage → 레코드 갱신) [https://d2908q01vomqb2.cloudfront.net/2a459380709e2fe4ac2dae5733c73225ff6cfee1/2025/08/04/FACT_image-581x1024.png] [그림 7. 한국일보 FACT 전체 워크플로우] C. 워크플로우 구현 상세 설명 이미지 업로드 한국일보 FACT는 S3 temp 폴더에 원본 사진이 업로드되면 Lambda가 Step Functions 상태머신을 호출해 전 과정을 오케스트레이션합니다 이 때, 해당 람다에선 이미지 데이터를 Base64 형태로 인코딩 과정을 거쳐 StepFunction에 전달됩니다. 저화질 이미지 [그림 8. 저화질 이미지 처리 워크플로우] FACT 서비스는 효율적인 이미지 처리를 위해 Amazon Rekognition의 DetectFaces API를 활용하여 업로드된 이미지의 품질을 사전 검증합니다. 먼저 이미지에서 얼굴 감지 여부를 확인하며, 얼굴이 감지되지 않는 경우 즉시 프로세스를 종료합니다. 얼굴이 감지된 경우에는 Rekognition이 제공하는 퀄리티 점수(밝기 및 선명도)를 기준으로 이미지 품질을 평가합니다. 퀄리티 점수가 30 미만인 저화질 이미지는 ‘processed’ 폴더로 옮기고 별도의 처리 없이 프로세스를 종료합니다. 반면 퀄리티 점수가 30 이상인 고품질 이미지는 다음 단계인 인물 분류 프로세스로 전달됩니다. 이렇게 필터링된 고품질 이미지 정보는 Step Functions의 Map State로 전달되어, 이후 신규 인물 감지, 유명 인물 감지, 기존 인물 색인 단계가 병렬적으로 수행됩니다. 기존 인물 감지 [https://d2908q01vomqb2.cloudfront.net/2a459380709e2fe4ac2dae5733c73225ff6cfee1/2025/08/04/기존인물감지-804x1024.png] [그림 9. 기존 인물 감지 워크플로우] 워크플로우는 먼저 Amazon Rekognition의 SearchFacesByImage API를 활용하여 기존 Collection에서 신규 이미지와 매칭되는 인물을 검색합니다. 매칭되는 인물이 없는 경우, 새로운 인물로 판단하여 ‘Unidentified’ 카테고리로 분류하고 관련 분석 데이터를 DynamoDB에 저장합니다. 반면 기존 Collection에 존재하는 인물인 경우, 해당 Face ID를 기반으로 S3 저장 경로에 신규 이미지를 복사합니다. 이때 기존 인물이 ‘ETC’로 분류되어 있을 경우, 즉 기존에 이미지가 Collection에 단 한 번 입력된 경우 기존 이미지도 Face ID 경로로 옮기는 과정을 거칩니다. 이후 Rekognition으로 분석된 얼굴 좌표, Face ID, 인물명 등의 정보를 DynamoDB에 업데이트하고, 임시 경로의 파일을 정리합니다. 유명 인물 감지 [https://d2908q01vomqb2.cloudfront.net/2a459380709e2fe4ac2dae5733c73225ff6cfee1/2025/08/04/유명-인물-감지-2-517x1024.png] [그림 10. 유명 인물 감지 워크플로우] FACT 서비스의 핵심 요구사항 중 하나는 기자들이 기사 작성 시 분위기에 맞는 인물 사진을 신속하게 찾을 수 있도록 지원하는 것입니다. 특히 연예인이나 유명 인사의 경우, 단순한 이름 검색을 넘어 인물의 행동, 복장, 표정 등을 활용한 세밀한 검색이 필요했습니다. 이를 위해 Amazon Rekognition의 RecognizeCelebrities API를 활용하여 등록된 유명 인사와의 유사도를 측정하고 빠른 분류를 수행합니다. 더 나아가 정확한 이미지 검색을 위해 Amazon Bedrock의 Claude Sonnet 4를 도입하여 유명 인물 이미지를 분석하고, 인물의 행동과 특징을 파악하여 자연어 형태의 이미지 요약을 생성합니다. [이미지 요약 System Role 프롬프트] 당신은 이미지 분석 전문가입니다. 주어진 이미지에서 인물의 행동이나 활동을 정확하고 간결하게 분석해주세요. [이미지 요약 User Role 프롬프트] 이 이미지에서 {celebrity_name}이(가) 무엇을 하고 있는지 간단하고 명확하게 한국어로 설명해주세요. 출력문에서 {celebrity_name} 를 한글로 번역하세요. 추가 정보: - 인물: {celebrity_name} - 파일명: {filename} {f"- {emotion_info}" if emotion_info else ""} 요구사항: - 100자 이내로 간결하게 답변 - 구체적인 행동이나 활동에 집중 - 예: "손흥민이 축구 경기장에서 슛을 하기 직전의 장면입니다", "지드래곤이 공연장에서 춤을 추고 있는 장면입니다" 등 [Input 예시 이미지][https://d2908q01vomqb2.cloudfront.net/2a459380709e2fe4ac2dae5733c73225ff6cfee1/2025/08/04/image-40-300x202.png] [Output]박찬호가 야구장에서 투구 동작을 취하고 있는 장면입니다. 오른손에 야구공을 들고 투구 준비 자세를 하고 있습니다. 이러한 접근을 통해 기자들은 수많은 사진 중에서 “웃고 있는 모습”, “정장을 입은 모습”, “손을 흔드는 모습” 등 구체적인 행동이나 상황을 기반으로 원하는 이미지를 정확하게 검색할 수 있습니다. 유명 인물로 분류된 이미지는 ‘Celebrity’ 카테고리로 분류되어 S3의 전용 경로로 이동하며, Rekognition과 Claude Sonnet 4를 통해 분석된 모든 정보는 DynamoDB에 저장되어 유명 인물 감지 프로세스를 완료합니다. 신규 인물 색인 [https://d2908q01vomqb2.cloudfront.net/2a459380709e2fe4ac2dae5733c73225ff6cfee1/2025/08/04/신규-인물-색인-1-517x1024.png] [그림 11. 신규 인물 감지 워크플로우] 앞선 단계를 거쳐 기존에 입력되지 않았고 유명한 인물도 아닌 경우, 신규 인물 색인 단계를 거치게 됩니다. 이 단계에서는 신규 인물을 기타를 뜻하는 ‘ETC’로 분류하여 ETC S3 경로에 이미지를 복사한 뒤, Amazon Rekognition으로 분석한 얼굴 데이터를 DynamoDB에 추가합니다. 효율적인 인물 분류 시스템 이렇게 4개의 프로세스를 거치면서 한국일보에 축적되는 이미지에서 인물을 체계적으로 분류하고 저장하게 됩니다. 이 과정에서 ‘ETC’ 라벨을 통해 상대적으로 중요도가 낮은 인물을 분류할 수 있다는 장점이 있습니다. 예를 들어, 연예인의 기자회견 사진이 한국일보 DB에 등록될 경우, Amazon Rekognition은 사진에서 모든 얼굴의 좌표를 가져오게 됩니다. 연예인뿐만 아니라 함께 찍힌 매니저, 코디네이터, 혹은 배경에 지나가는 일반인도 감지 대상이 될 수 있습니다. FACT의 4단계 프로세스를 거치면 함께 찍힌 모든 인물에 대한 데이터가 Collection에 축적되어 메모리 낭비를 초래할 수 있습니다. 바로 이때 ‘ETC’ 라벨을 활용할 수 있습니다. 일정 기간 동안 상대적으로 중요도가 낮은 인물(연예인의 매니저 등)에 대한 입력이 없거나 검색하는 기자가 없을 경우, 이를 판단하여 해당 인물을 Collection에서 제외함으로써 메모리 낭비를 방지할 수 있습니다. 6. 구축 결과 [https://d2908q01vomqb2.cloudfront.net/2a459380709e2fe4ac2dae5733c73225ff6cfee1/2025/08/04/image-41.png] 무작위 이미지의 업로드로도 효율적인 유명인사 구분을 통해 기자들이 기사 작성에 있어서 관련 이미지를 서칭하는 시간을 단축하는 효과를 가져올 수 있습니다. [데모](https://youtu.be/_M2odp4t7t4 [https://youtu.be/_M2odp4t7t4]) NEXT STEP 추후에 구축 예정인 기능들은 앞서 설명드린 PersonaDB 의 데모를 통해 소개해 드리겠습니다. 행위 검색 [데모](https://youtu.be/lROdStnuZbs [https://youtu.be/lROdStnuZbs]) 행위 검색의 경우, PersonaDB의 아키텍처를 보면 OpenSearch라는 벡터 데이터베이스에 “행위 + 인물명”을 벡터화하여 저장하고, 추후 시맨틱 서치(의미 기반 검색)로 검색할 수 있습니다. 영상에서 보는 것처럼 “넘어진 손흥민”으로 검색했을 때는 넘어진 손흥민 사진만 검색되고, “손흥민”처럼 인물명만 검색하면 해당 인물과 관련된 모든 이미지가 검색됩니다. 텍스트 데이터(기사) 기반 인물명 추론 [데모](https://youtu.be/wk8y3ZMh0dk [https://youtu.be/wk8y3ZMh0dk]) Amazon Rekognition의 유명인사 검색 기능으로 조회되지 않는 경우, PersonaDB에서는 해당 인물을 ‘Unknown’으로 임시 라벨링합니다. 이후 영상에서 보는 것처럼 사진과 연관된 텍스트 데이터(신문사의 경우 해당 사진과 매핑된 기사 내용)를 활용하여 인물명을 추론할 수 있습니다. LLM 모델을 통해 텍스트 데이터에서 인물명만을 추출하여 사진과 매핑하는 방식입니다. 동일한 인물이 등장하는 기사가 축적될수록 해당 인물의 이름이 더 자주 등장하게 되며, 자동 확정 기능을 통해 빈도수를 기반으로 인물의 이름을 추론할 수 있습니다. 예를 들어, 첫 번째 기사에서 추출된 인물명이 “양민혁, 손흥민, 황희찬”이고 다음 기사에서 “양민혁, 이강인”이라면, 양민혁이 가장 많이 등장했기 때문에 해당 사진의 인물명을 “양민혁”으로 추론할 수 있습니다. 8. SUMMARY 한국일보는 기존에 수동 이미지 태깅을 담당할 전담 인력이 없어 인물 사진 분류 자체가 불가능한 상황이었습니다. 매일 수백 장의 보도 사진이 유입되지만 이를 체계적으로 분류하고 태깅할 수 있는 인적 자원의 한계로 인해 사진 검색과 아카이브 활용에 큰 어려움을 겪고 있었습니다. FACT (Face Automate Classification Tree) 시스템 도입을 통해 이러한 근본적인 문제를 해결했습니다. 이제 이미지가 S3에 업로드되면 평균 10초 이내에 비동기적으로 자동 태깅이 완료되어, 기존에 불가능했던 인물 사진 분류와 검색이 실시간으로 가능해졌습니다. 한국일보는 AWS와 협력해 FACT (Face Automate Classification Tree) 를 구축하며, 언론사가 AI와 클라우드 기술을 결합해 가치를 창출할 수 있음을 입증했습니다. 최신 AWS 서비스를 애자일 방식으로 빠르게 실험·적용해 실제 뉴스룸 워크플로에 최적화된 자동화 솔루션을 완성한 사례입니다. 매일 유입되는 보도 사진은 S3 업로드 직후 (1) 품질 필터링 → (2) 인물·행동 분석 → (3) 메타데이터 저장 순으로 서버리스 파이프라인을 거칩니다. Amazon Rekognition과 Amazon Bedrock 기반 LLM을 조합해 얼굴 품질을 선별하고 표정·행동 정보를 추출해 메타데이터화함으로써 수작업 태깅 부담을 획기적으로 줄였습니다. 덕분에 기자들은 “웃고 있는 지드래곤”처럼 맥락 중심 키워드만으로도 필요한 이미지를 즉시 찾을 수 있고, 특정 사건에 반복 등장하는 인물을 추적해 수사 협조 자료로 활용하는 등 새로운 서비스 기회를 확보했습니다. 무엇보다 AWS와의 긴밀한 기술 파트너십을 통해 클라우드 기반 AI 워크플로의 효율성과 확장성을 직접 체감했습니다. 앞으로 한국일보는 FACT를 영상·실시간 스트리밍 영역으로 확장해 더욱 고도화해 나갈 계획입니다. PERSONADB의 통합적 가치와 확장 가능성 Amazon Rekognition과 Amazon Bedrock의 결합은 단순한 기능의 합이 아닌, 새로운 차원의 가치를 창출합니다: 1. 정확성의 향상: Rekognition의 정확한 인물 식별과 Bedrock의 맥락 이해가 결합되어, 기존 단일 서비스로는 불가능했던 수준의 정확한 분류가 가능합니다. 2. 검색 경험의 혁신: “웃고 있는 지드래곤”과 같은 자연어 검색이 가능해져, 사용자 경험이 획기적으로 개선됩니다. 3. 확장성과 효율성: 두 서비스 모두 서버리스 아키텍처 기반으로 구현되어, 처리량 증가에 따른 자동 스케일링과 사용한 만큼만 비용을 지불하는 효율적인 운영이 가능합니다. 4. 지속적인 학습: 새로운 인물과 상황이 지속적으로 데이터베이스에 축적되면서, 시스템의 인식 정확도와 검색 품질이 지속적으로 향상됩니다. 5. 다양한 미디어 유즈케이스: Amazon Rekognition의 인물, 객체 탐지 기능과 Amazon Bedrock이 텍스트, 이미지, 비디오와 같은 여러 리소스로부터 Context를 파악할 수 있다는 점을 활용하여, 인물 DB뿐만 아니라 다양한 분야에서 비슷한 형태의 DB구축이 가능합니다. 예를 들어: * * 영화 산업: 영화 장면, 배우, 촬영 장소 등을 자동 분류하여 영화 아카이브 구축 * 자동차 산업: 차량 모델, 색상, 브랜드를 자동 식별하여 자동차 데이터베이스 구축 * 스포츠 산업: 경기 장면, 선수 동작, 경기 상황을 분석하여 스포츠 하이라이트 DB 구축