AI 에이전트 스킬, 벤치마크 성능의 절반도 현실에서 안 나온다

URL

https://news.hada.io/topic?id=28581

날짜

2026/04/16

생성 일시

2026/04/16 02:21

태그

GeekNews

UC Santa Barbara, MIT CSAIL, MIT-IBM Watson AI Lab 연구팀이 AI 에이전트의 스킬 활용 능력을 현실적으로 평가한 연구 결과입니다. 연구팀은 오픈소스에서 34,198개의 스킬(워크플로, API 사용법, 모범 사례 등 구조화된 지식)을 수집해 테스트했습니다. 기존 벤치마크( ||