Search

SkillsBench: 다양한 작업에서 에이전트 스킬의 성능을 평가하는 벤치마크

URL
날짜
2026/02/18
생성 일시
2026/02/17 19:20
태그
GeekNews
SkillsBench는 대형 언어 모델(LLM) 기반 에이전트의 스킬(Agent Skills) 효과를 정량적으로 평가하기 위한 첫 벤치마크로, 11개 도메인 84개 작업을 포함함 각 작업은 스킬 미적용, 큐레이션된 스킬 적용, 자체 생성 ... ||