구글 딥마인드가 3D 가상 환경 내에서 인간처럼 복잡한 작업을 수행할 수 있는 차세대 범용 인공지능(AI) 에이전트 '시마 2(SIMA 2)'를 공개했습니다. 이는 단순히 명령을 수행하던 이전 버전을 넘어, 스스로 목표를 판단하고 추론하며, 심지어 자기 개선까지 가능한 AI로의 진화를 의미합니다. AGI(인공일반지능) 연구에 있어 중요한 이정표가 될 수 있는 시마 2에 대해 자세히 알아보겠습니다.
반응형
(adsbygoogle = window.adsbygoogle || []).push({});
단순 명령 수행을 넘어 '사고'하는 AI의 등장
지난 11월 13일(현지시간), 구글 딥마인드는 가상 세계에서 추론하고 행동하는 AI 에이전트 '시마 2'의 연구 미리보기를 공개했습니다. 지난 3월, 게임 플레이용 범용 에이전트로 처음 소개된 시마(SIMA)의 업그레이드 버전입니다.
시마 2가 주목받는 이유는 '제미나이(Gemini)' 모델을 핵심 엔진으로 통합했기 때문입니다. 이로 인해 시마 2는 단순한 지시 이행을 넘어, 주변 환경을 스스로 이해하고 행동 계획을 수립하는 '사고'와 '추론' 능력을 갖추게 되었습니다. 여기에 월드 모델 '지니 3(Genie 3)'까지 결합하며, 구글은 'AI 속의 AI'라는 구조를 통해 인간과 닮은 AI 실현 가능성을 한층 더 끌어올렸습니다.
시마 2의 핵심 작동 원리: '제미나이'와 '지니 3'의 결합
시마 2의 가장 큰 특징은 두 개의 강력한 AI 모델이 유기적으로 결합하여 작동한다는 점입니다.
핵심 엔진 '제미나이(Gemini)': 시마 2는 '제미나이 2.5 플래시-라이트'를 기반으로 동작합니다. 제미나이는 LLM(대형언어모델)으로서, 시마 2가 결정을 내리고 추론하는 두뇌 역할을 합니다.
월드 모델 '지니 3(Genie 3)': 지니 3는 LLM이 내린 결정이 현실(가상 환경)에서 어떤 결과를 초래할지 시뮬레이션하는 '디지털 트윈' 환경을 생성합니다.
데미스 허사비스 구글 딥마인드 CEO는 이를 "한 AI가 다른 AI의 머릿속에서 활동할 수 있다"라고 설명했습니다. 즉, LLM(제미나이)이 내린 결정은 먼저 월드 모델(지니 3)이 생성한 가상 환경에서 사전 검증됩니다. 이 시뮬레이션 결과를 바탕으로 LLM의 답변을 현실 세계에 맞게 수정하고 보완하는 과정을 거치게 됩니다.
허사비스 CEO는 "사실적인 환경과 3D 게임 엔진을 사용해 시스템이 물리적 세계를 이해하도록 훈련 데이터를 만든다"라며, 이것이 시마 2와 지니 3가 AGI를 향한 중요한 진전인 이유라고 밝혔습니다.
스스로 추론하고 이해하는 능력: 시마 2의 작동 예시
시마 2는 단순히 게임을 플레이하는 것을 넘어, 현재 상황을 이해하고 사용자의 요구를 상식적인 수준에서 해석하는 단계로 발전했습니다.
예를 들어, 사용자로부터 "익은 토마토 색의 집으로 가라"는 지시를 받으면, 시마 2는 '익은 토마토 = 빨간색'이라는 추론 과정을 스스로 설명한 뒤, 정확하게 빨간 집을 찾아 이동합니다.
또한, '도끼 이모지'와 '나무 이모지'를 함께 입력받으면, 시마 2는 이 두 가지 정보를 조합하여 '나무를 찾아 도끼로 베는 행동'을 수행합니다. 이는 복합적인 의미를 이해하고 실제 행동으로 옮길 수 있음을 보여줍니다.
스스로 진화하는 AI: 자기 주도적 학습 사이클
시마 2의 또 다른 핵심 능력은 '자기 주도적 학습 능력'입니다. 이전 버전에서 습득한 약 600여 개의 언어 기반 행동 기술을 바탕으로, 훈련받지 않은 새로운 게임 환경에서도 유연하게 적응하고 행동할 수 있습니다.
예를 들어, 특정 게임에서 '광산 채굴' 경험을 학습했다면, 전혀 다른 게임의 '수확' 활동으로 이 기술을 전이(Generalization)할 수 있습니다. 이는 인간 수준의 일반화 능력에 근접한 성능입니다.
이 학습 과정은 다음과 같이 이루어집니다.
초기 학습: 인간의 시범 플레이를 통해 기본 기술을 습득합니다.
자율 학습: 초기 학습 이후, 추가적인 인간 데이터 없이 스스로 학습을 진행합니다.
과제 생성: 새로운 환경