이 글은 AWS Open Source Blog의 “Building intelligent physical AI: From edge to cloud with Strands Agents, Bedrock AgentCore, Claude 4.5, NVIDIA GR00T, and Hugging Face LeRobot by Arron Bailiss” 게시글을 번역한 글 입니다. 에이전틱 AI 시스템은 디지털 세계를 넘어 물리적 세계로 빠르게 확장되고 있으며, AI 에이전트가 실제 환경에서 인지하고, 추론하고, 행동합니다. AI 시스템이 로봇공학, […] ||
이 글은 AWS Open Source Blog의 “Building intelligent physical AI: From edge to cloud with Strands Agents, Bedrock AgentCore, Claude 4.5, NVIDIA GR00T, and Hugging Face LeRobot by Arron Bailiss” 게시글을 번역한 글 입니다.
에이전틱 AI 시스템은 디지털 세계를 넘어 물리적 세계로 빠르게 확장되고 있으며, AI 에이전트가 실제 환경에서 인지하고, 추론하고, 행동합니다. AI 시스템이 로봇공학, 자율주행 차량, 스마트 인프라를 통해 물리적 세계와 점점 더 많이 상호작용함에 따라 근본적인 질문이 떠오릅니다: 복잡한 추론을 위해 대규모 클라우드 컴퓨팅을 활용하면서도 물리적 감지와 작동을 위한 밀리초 수준의 응답성을 유지하는 에이전트를 어떻게 구축할 수 있을까요?
2025년은 AWS의 에이전틱 AI에 있어 혁신적인 한 해였습니다. 2025년 5월에 Strands Agents를 출시하여 에이전트 개발에 간단한 개발자 경험과 모델 중심 접근 방식을 제공했습니다. 7월에는 멀티 에이전트 오케스트레이션 기능을 갖춘 버전 1.0을 출시하고, AI 에이전트를 대규모 프로덕션으로 가속화하기 위한 Amazon Bedrock AgentCore를 소개했습니다. re:Invent 2025에서는 TypeScript SDK, 평가 도구, 음성 에이전트를 위한 양방향 스트리밍, 에이전트를 경계 내에서 안내하는 스티어링으로 Strands를 확장했습니다. 오늘은 이러한 역량이 엣지 및 Physical AI로 어떻게 확장되는지 살펴보겠습니다. 이 영역에서 에이전트는 단순히 정보를 처리하는 것을 넘어, 물리적 세계에서 우리와 함께 일하게 됩니다.
전체 데모 코드는 여기에서 찾을 수 있습니다:
Strands + NVIDIA GR00T + SO-101
Strands + Boston Dynamics Spot
이 시연에서 Physical AI 에이전트는 Strands Agents라는 통합 인터페이스를 통해 AI 에이전트를 물리적 센서 및 하드웨어에 연결하며, 이를 기반으로 서로 전혀 다른 두 종류의 로봇을 제어합니다. 3D 프린팅으로 제작된 SO-101 로봇 팔은 NVIDIA GR00T 비전-언어-행동 모델(VLA)을 활용해 물체 조작을 수행합니다. 예를 들어 “과일을 집어서 바구니에 넣어”라고 명령하면, 로봇 팔이 사과를 인식하고 잡은 뒤 바구니에 옮겨 놓는 작업을 완료합니다. Boston Dynamics의 사족보행 로봇 Spot은 이동 및 전신 제어를 담당합니다. “센서를 점검해”라고 명령하면, Spot은 센서가 몸체 하부에 있다는 것을 스스로 추론한 뒤 자율적으로 앉아서 옆으로 몸을 뒤집어 센서에 접근합니다. 두 시연 모두 NVIDIA Jetson 엣지 하드웨어에서 구동되며, 고도화된 AI 기능이 임베디드 시스템에서도 직접 실행될 수 있음을 보여줍니다.
엣지-클라우드 연속체
Physical AI 애플리케이션은 지능형 시스템의 아키텍처 설계 방식을 좌우하는 근본적인 긴장 관계를 드러냅니다. 공을 잡는 로봇 팔을 생각해 보겠습니다. 공을 인식한 순간부터 그리퍼 위치를 조정하기까지 밀리초 단위로 이루어져야 합니다. 아무리 빠른 연결을 사용하더라도 클라우드 서비스까지의 네트워크 지연 시간으로는 이를 실현할 수 없습니다. 추론은 물리적 현실이 요구하는 거의 즉각적