AI 코딩 벤치마크를 믿을 수 없는 이유 – DeepSWE가 드러낸 불편한 진실
GPT-5.5가 1위, DeepSeek V4 Pro가 꼴찌에서 두 번째. 기존 SWE-Bench 리더보드에서 익숙하게 보던 순서와 전혀 다른 결과가 나왔다. Datacurve가 공개한 DeepSWE 벤치마크 이야기다. 순위 자체보다 더 흥미로운 건 이 벤치마크가 드러낸 기존 평가 체계의 구조적 결함이다. 올바른 구현을 제출해도 네 번 중 한 번은 틀렸다고 판정받는 시스템 위에서 AI 코딩 능력을 비교해왔다는 것이 이번에 밝혀졌다. … 더 읽기