Composer: RL로 완성한 초고속 프런티어 모델

URL

https://digitalbourgeois.tistory.com/2231

생성 일시

2025/10/31 03:01

최종 편집 일시

2025/10/31 03:01

태그

평범한직장인이사는세상

파일과 미디어

‘빠르지만 똑똑한’ AI 코딩 모델의 등장 AI 코딩 도구가 빠르게 발전하고 있지만, 여전히 많은 개발자들이 “느리다”는 문제에 부딪힌다. 코드 제안이 정확하더라도 몇 초씩 지연된다면, 개발 흐름이 끊기고 몰입감이 떨어진다. Cursor 팀은 이러한 현실적인 문제에서 출발했다. 그들은 질문했다. “정말 실무에서 쓸 수 있는, 반응이 빠르고 똑똑한 AI 모델은 없을까?” 이 질문에 대한 답이 바로 Composer다. Composer는 소프트웨어 엔지니어링 환경에 특화된 새로운 AI 에이전트 모델이다. 기존 모델 대비 최대 4배 빠른 코드 생성 속도를 달성하면서도, 대형 코드베이스 내 실제 문제를 해결할 수 있도록 Reinforcement Learning(RL)로 학습되었다. 단순한 텍스트 생성 모델이 아니라, 개발자의 손과 머리를 동시에 지원하는 실시간 엔지니어링 파트너를 지향한다. 반응형 (adsbygoogle = window.adsbygoogle || []).push({}); Composer란 무엇인가? Composer는 Mixture-of-Experts(MoE) 아키텍처를 기반으로 한 대규모 언어 모델이다. 이 모델은 일반적인 자연어 처리나 문장 생성이 아닌, 소프트웨어 엔지니어링 환경에서의 지능적 작업 수행을 목표로 한다. Composer의 학습은 단순한 데이터 기반 훈련이 아닌, 실제 개발 과정을 모사하는 강화학습(Reinforcement Learning) 방식으로 이루어졌다. 모델은 주어진 코드 문제를 해결하기 위해 다음과 같은 행동을 수행하도록 훈련된다. 코드 편집 및 수정 문제 해결 계획 수립 코드베이스 내 의미 기반 검색 수행 터미널 명령 실행 이처럼 Composer는 단순히 “답을 생성하는” 언어 모델이 아니라, 문제를 이해하고 해결하는 에이전트 모델로 설계되었다. Composer의 핵심 기술 요소 1. Mixture-of-Experts (MoE) 구조 Composer는 MoE 구조를 채택하여, 여러 개의 전문가 모델(Expert)이 입력 데이터의 특성에 따라 선택적으로 활성화된다. 이 구조는 처리 효율성을 높이고, 특정 작업(예: 코드 검색, 테스트 생성 등)에 맞는 전문가를 활용할 수 있게 한다. 그 결과, 더 많은 연산 자원을 절약하면서도 고성능을 유지할 수 있다. 2. 강화학습을 통한 문제 해결 최적화 Composer는 다양한 실제 소프트웨어 엔지니어링 과제를 RL 방식으로 학습한다. 모델은 각 문제에서 “가장 효율적이고 정확한 해결 방법”을 찾아내기 위해 반복적으로 시도하고 보상을 받는다. 이 과정에서 Composer는 단순한 코딩 능력뿐 아니라, 맥락 이해·도구 선택·문제 분해 능력까지 함께 발전시켰다. 훈련 중에는 다음과 같은 행동 패턴을 스스로 학습하기도 했다. 복잡한 코드 검색 및 구조적 이해 린터(linter) 오류 자동 수정 단위 테스트 생성 및 실행 결국 Composer는 스스로 개발자처럼 문제를 분석하고 해결하는 법을 익혔다. 3. 고속 병렬 학습 인프라 Composer의 빠른 성능은 모델 구조뿐 아니라, 그 아래의 훈련 인프라 혁신에서 비롯되었다. Cursor 팀은 PyTorch와 Ray를 기반으로 비동기 강화학습 인프라를 구축했다. 여기에 MXFP8 MoE 커널을 결합하여 저정밀 연산 환경에서도 성능 저하 없이 학습이 가능하도록 했다. 또한 전문가 병렬화(expert parallelism)와 하이브리드 샤딩 데이터 병렬화(hybrid sharded data parallelism)를 적용해, 수천 개의 NVIDIA GPU 환경에서도 통신 비용을 최소화했다. 이를 통해 Composer는 대규모 훈련 속도와 실시간 추론 속도 모두에서 이점을 얻었다. Composer의 성능과 평가: Cursor Bench Composer의 성능은 Cursor가 자체 개발한 Cursor Bench를 통해 검증되었