본 블로그는 Olivier Sutter, Geoff Van Natter, Mikhail Yurasov, Amrith Prabhu, Steven DeVries, Wonsik Han이 작성한 Building an End-to-End Physical AI Data Pipeline for Autonomous Vehicle 3.0 on AWS with NVIDIA를 번역, 편집하였으며, 이해를 돕기 위해 Note를 추가했습니다. 도입 자율주행(AV) 개발은 아키텍처 관점에서 명확한 세대 전환이 진행 중입니다. AV 1.0: 인지(Perception), 예측(Prediction), 계획(Planning), 제어(Control)로 이어지는 […] ||
본 블로그는 Olivier Sutter, Geoff Van Natter, Mikhail Yurasov, Amrith Prabhu, Steven DeVries, Wonsik Han이 작성한 Building an End-to-End Physical AI Data Pipeline for Autonomous Vehicle 3.0 on AWS with NVIDIA를 번역, 편집하였으며, 이해를 돕기 위해 Note를 추가했습니다.
도입
자율주행(AV) 개발은 아키텍처 관점에서 명확한 세대 전환이 진행 중입니다.
AV 1.0: 인지(Perception), 예측(Prediction), 계획(Planning), 제어(Control)로 이어지는 전통적인 모듈형 스택으로, 각 모듈 간 인터페이스를 엔지니어가 수작업으로 설계합니다.
AV 2.0: 멀티모달 LLM 기반의 E2E(end-to-end) 학습 스택으로, 모듈 간 경계를 줄이고, 데이터 규모에 비례하여 성능을 향상시키는 접근법입니다.
AV 3.0: E2E Reasoning VLA(Vision–Language–Action) 시스템으로, 인지·추론·행동을 하나의 통합 정책(unified policy)으로 수행합니다. 실제 주행 데이터에 기반하며, closed-loop 시뮬레이션으로 검증합니다.
이러한 VLA 모델은 방대한 양의 실세계 및 합성 센서 데이터를 필요로 합니다. 카메라 피드, LiDAR 포인트 클라우드(point cloud), radar 반사 신호(return), 차량 텔레메트리(telemetry) 등 실제 주행 중 수집되는 모든 데이터가 대상입니다. 이 데이터를 수집하고, 큐레이션하고, 검증하는 작업은 비용이 높고, 시간이 오래 걸리며, 안전에 민감한(safety-critical) 영역입니다.
이 글에서는 AWS와 NVIDIA가 공동으로 설계한 AV 3.0 데이터 파이프라인의 참조 아키텍처를 제시합니다. 차량의 원시 센서 데이터 수집(ingestion)부터, AI 기반 비디오 큐레이션(curation), 신경망 기반 3D 장면 복원(neural 3D scene reconstruction), Reasoning VLA 모델 학습, 그리고 closed-loop 시뮬레이션 검증까지 전 과정을 다룹니다.
이 아키텍처는 아래 테이블과 같이 오픈소스 및 상용 NVIDIA 소프트웨어의 조합으로 구성됩니다:
NVIDIA 기술
역할
Cosmos 파운데이션 모델
비디오 이해 및 생성의 기반 모델군
Cosmos Curator
데이터 큐레이션 파이프라인
Cosmos Dataset Search (CDS)
시맨틱 기반 데이터셋 검색
Omniverse NuRec
신경망 기반 3D 장면 복원
Alpamayo
Reasoning VLA 파운데이션 모델
이들은 AWS 관리형 인프라 위에서 운영되며, 고객이 인프라 관리가 아닌 혁신에 엔지니어링 리소스를 집중할 수 있도록 글로벌 스케일링을 지원합니다.
차세대 AV 3.0 데이터 플랫폼을 신규 구축하든 기존 인프라를 현대화하든, 이 아키텍처를 각 개발 단계의 참조 가이드로 활용할 수 있습니다 — 특히 확장 가능한 AI 기반 데이터 수집, 검색 중심의 데이터셋 조립, 그리고 빠른 closed-loop 검증에