Search

VibeThinker-3B: SFT+GRPO로 Opus 4.5 추론 성능을 넘긴 3B 모델

URL
날짜
2026/06/25
생성 일시
2026/06/24 21:20
태그
GeekNews
VibeThinker-3B는 3B 파라미터만으로 검증 가능한 추론을 어디까지 압축할 수 있는지 실험한 소형 밀집 모델임 학습 파이프라인은 Spectrum-to-Signal 사후학습을 바탕으로 커리큘럼 지도 미세조정, 다중 도메인 강화학습, 오프라인 자기증류를 결합함 AI... ||