수정
OpenAI가 SWE-bench Verified를 버린다: 코딩 벤치마크의 수명이 끝났다
OpenAI가 SWE-bench Verified 벤치마크가 더 이상 LLM의 프론티어 코딩 능력을 측정하지 못한다고 판단, 평가를 중단했다. 벤치마크의 한계와 새로운 평가 방법론의 필요성을 시사한다.
diff --summary
- OpenAI는 SWE-bench Verified가 프론티어 코딩 능력을 더 이상 측정하지 못한다며 평가를 중단했다.
- 자사 모델이 90% 이상을 해결하면서 점수가 포화돼 모델 간 변별력이 사라졌다.
- 벤치마크가 빠르게 구식이 되는 건 측정 도구가 발전 속도를 못 따라간다는 구조적 문제다.
- OpenAI는 자체 내부 벤치마크와 새 평가 방법론 개발로 방향을 틀었다.
벤치마크가 사라질 때는 보통 그게 틀렸기 때문이 아니다. 너무 잘 맞아서, 모두가 만점에 수렴해버려서다. OpenAI가 SWE-bench Verified 평가를 중단한다고 밝힌 이유가 정확히 그거다. 모델이 못 풀어서가 아니라 너무 잘 풀어서 버린다. AI 분야에서 ‘졸업’이라는 단어가 이렇게 빨리 등장하는 영역도 드물다.
포화가 곧 무용지물인 이유
SWE-bench는 실제 GitHub 이슈와 Pull Request를 기반으로 모델이 버그를 얼마나 잘 고치는지 보는 벤치마크다. 합성 문제가 아니라 현실 코드를 다룬다는 점에서 한동안 코딩 AI를 재는 가장 그럴듯한 잣대였다. 그런데 OpenAI 모델이 90% 이상을 해결하는 수준이 되면서 문제가 생겼다. 점수가 높다는 게 아니라, 점수로 모델을 구분할 수 없게 됐다는 게 핵심이다.
벤치마크의 가치는 절대 점수가 아니라 변별력에서 나온다. 모두가 95점대에 몰리면 5점 차이가 실력 차이인지 채점 노이즈인지 알 수 없다. 남은 10%는 대개 문제 자체가 모호하거나 정답이 깔끔하지 않은 케이스라, 거길 더 잘 푼다고 더 똑똑한 모델이라 단정하기도 어렵다. 측정하려던 능력의 천장은 이미 벤치마크 천장 위로 빠져나간 상태인 셈이다.
공용 잣대가 사라진다는 신호
흥미로운 건 이게 OpenAI 한 곳의 살림 문제가 아니라는 점이다. SWE-bench Verified는 여러 연구실이 서로의 성능을 같은 자로 비교하던 공용 좌표였다. OpenAI가 여기서 빠지고 자체 내부 벤치마크로 옮겨가면, 측정은 정교해질지 몰라도 외부에서 검증하거나 경쟁사와 나란히 비교하기는 어려워진다. 공개 벤치마크가 포화될수록 평가가 각 회사 내부로 숨어드는 흐름은 투명성 입장에선 반갑지 않다.
결국 진짜 메시지는 ‘모델이 빨라졌다’가 아니라 ‘측정 도구의 수명이 발전 속도를 못 따라간다’는 구조적 사실이다. 벤치마크를 만들고 포화되기까지의 간격이 계속 짧아지면, 어느 순간 잣대를 새로 까는 일 자체가 연구의 주요 비용이 된다. 코딩 AI를 쓰는 쪽에서도 외부 점수 하나로 모델을 고르던 시대가 끝나가고 있다는 뜻이다.