Search

Config의 Amazon EKS Spot 기반 대규모 RFM 데이터 파이프라인 구축

URL
생성 일시
2026/04/08 00:06
최종 편집 일시
2026/04/08 00:06
태그
AWS
파일과 미디어
소개 Config는 General-Purpose Robot Foundation Model을 실현하기 위한 데이터 인프라와 기술을 구축하는 기업입니다. 다양한 실제 환경에서 로봇이 양손 조작 작업을 안정적으로 수행할 수 있도록, 대규모 학습 데이터의 수집부터 전처리, 모델 학습, 실환경 검증까지 이어지는 end-to-end 파이프라인을 운영하고 있습니다. 현재까지 약 10만 시간 규모의 액션 데이터를 구축했으며, 월 약 2만 시간의 데이터를 지속적으로 수집하고 있습니다. 이미지 […] || 소개 Config는 General-Purpose Robot Foundation Model을 실현하기 위한 데이터 인프라와 기술을 구축하는 기업입니다. 다양한 실제 환경에서 로봇이 양손 조작 작업을 안정적으로 수행할 수 있도록, 대규모 학습 데이터의 수집부터 전처리, 모델 학습, 실환경 검증까지 이어지는 end-to-end 파이프라인을 운영하고 있습니다. 현재까지 약 10만 시간 규모의 액션 데이터를 구축했으며, 월 약 2만 시간의 데이터를 지속적으로 수집하고 있습니다. 이미지 1. About Config 특히 Config는 사람이 수행한 조작 영상으로부터 로봇 정렬 액션(robot-aligned action)을 추정하는 독자적인 파이프라인을 보유하고 있습니다. 이를 통해 로봇 데이터 수집 비용과 운영 부담을 줄이면서도 대규모의 다양한 학습 데이터를 효율적으로 확보할 수 있으며, 이렇게 학습된 Robot Foundation Model(RFM)은 소량의 작업별 데이터만으로도 약 48시간 내에 특정 작업에 대한 정책 모델을 효과적으로 학습하여 배포할 수 있습니다. GIF 1. 사람 조작 데이터와 추정된 7-DoF 로봇 정렬 액션 이 글에서는 이러한 대규모 데이터 전처리 파이프라인을 기존 Amazon SQS + AWS Lambda 기반에서 Amazon EKS + Amazon EC2 Spot Instances + RabbitMQ + KEDA 기반으로 마이그레이션하여, 처리 비용을 70~90% 절감하고 처리 시간을 수 일에서 수 시간으로 단축한 과정을 공유합니다. 데이터 전처리 파이프라인의 역할 RFM 학습을 위해서는 수집된 원시 데이터를 모델이 학습할 수 있는 형태로 변환하는 전처리 과정이 필수적입니다. Config의 데이터 파이프라인은 크게 두 가지 유형의 데이터 처리 작업을 수행합니다. (1) 사람 조작 영상 데이터로부터 로봇 정렬 액션 표현(robot-aligned action representation)을 추정하는 액션 라벨링 과정 (2) 데이터를 세그먼트 단위로 분할하고, 각 프레임에 대응하는 상태 데이터를 시간 축으로 정렬하여 학습에 적합한 형태로 변환하는 과정 하나의 에피소드는 평균적으로 3개의 카메라 뷰 영상(평균 25~50MB, 약 1~2분 분량)과 상태 데이터, 메타데이터로 구성됩니다. 개별 에피소드당 총 데이터 용량은 평균 75~150MB에 달하며, 수십만 개의 에피소드를 처리할 경우 전체 데이터셋은 수십 TB 규모에 이릅니다. 각 에피소드의 전처리 과정은 영상 디코딩, 프레임 추출, 상태 정렬, 모델 추론 등 다단계 처리를 필요로 합니다. 따라서 수만~수십만 개 에피소드를 대규모로 병렬 처리하기 위해서, CPU 전처리–GPU 추론–CPU 후처리 파이프라인을 효율적으로 활용할 수 있는 컴퓨팅 인프라가 필수적입니다. 기존 아키텍처와 한계 SQS + Lambda 기반 파이프라인 초기 데이터 전처리 파이프라인은 Amazon SQS와 AWS Lambda를 활용한 서버리스 아키텍처로 구성되어 있었습니다. Amazon S3에 저장된 원시 데이터의 경로를 SQS 메시지로 발행하면, Lambda 함수가 개별 에피소드를 처리하여 결과를 S3에 저장하는 단순한 구조였습니다. 이미지 2. 기존 아키텍처 다이어그램 한계점 데이터 규모와 사용자 수가 급격히 증가하면서 다음과 같은 한계에 직면했습니다. 단일 큐(Single Queue)로 인한 순차 대기 병목: 기존 아키텍처에서 서비스별로 하나의 SQS