클라우드101(Cloud101)
/
소식 / 글 / 기사
/
AI 에이전트 벤치마크를 무너뜨린 방법과 그 다음 단계
Search
Share
AI 에이전트 벤치마크를 무너뜨린 방법과 그 다음 단계
URL
https://news.hada.io/topic?id=28440
날짜
2026/04/12
생성 일시
2026/04/12 13:20
태그
GeekNews
주요 AI 에이전트 벤치마크 8종이 실제 문제 해결 없이도 최고 점수를 얻을 수 있는 구조적 취약점을 가진 것으로 드러남 연구팀은 자동화된 스캐닝 에이전트를 통해 SWE-bench, WebArena, OSWorld, GAIA 등에서 점수 계산 로직을 악용해 100%에 가까운 점... ||