OpenAI, SWE-bench Verified 평가 중단: 프론티어 코딩 능력 측정에 한계

OpenAI가 LLM의 코딩 능력을 평가하는 데 쓰던 벤치마크, SWE-bench Verified에 대해 ‘더는 프론티어 코딩 능력을 측정하지 못한다’고 선언하며 평가를 중단했다. 한마디로 ‘너무 쉬워졌다’는 얘기다. 마치 고등학생 수학 시험으로 대학원생 실력을 가늠하는 격이랄까. LLM의 발전 속도가 얼마나 빠른지 보여주는 또 하나의 사례다.

벤치마크가 무용지물이 된 이유

SWE-bench는 실제 GitHub 이슈와 Pull Request를 기반으로 LLM이 코드를 얼마나 잘 수정하고 버그를 고치는지 평가하는 벤치마크였다. 꽤 현실적인 작업이라 코딩 AI의 능력을 측정하는 좋은 도구로 여겨졌었죠. 하지만 ChatGPT 같은 최신 LLM들이 이 벤치마크의 문제들을 너무 쉽게 풀어버리면서 변별력이 사라졌다.

OpenAI에 따르면, 자기네 모델들은 SWE-bench Verified의 90% 이상을 해결할 수 있게 됐고, 이건 더 이상 모델 간의 미묘한 차이를 파악하는 데 도움이 되지 않는다는 뜻이다. 벤치마크가 모델의 ‘하한선’만 보여줄 뿐, ‘최고점’을 측정하지 못하는 상황이 된 거다. 마치 모두가 만점을 받는 시험은 더 이상 의미가 없는 것과 같다.

벤치마크의 짧은 유통기한

이번 사례는 LLM이라는 기술이 얼마나 빨리 발전하는지 적나라하게 보여준다. 몇 달 사이에 벤치마크의 유효성이 사라져 버리니, 연구자나 개발자 입장에서는 모델의 진정한 실력을 가늠하기가 점점 더 어려워지는 셈이다. 새로운 모델이 나올 때마다 새로운 벤치마크를 만들어야 할 판이다. 벤치마크 개발자들은 참 바쁘겠다 싶다.

OpenAI는 이제 SWE-bench Verified 대신 자체적인 평가 방법론과 내부 벤치마크를 개발해 모델의 프론티어 코딩 능력을 측정하겠다고 한다. 결국, 벤치마크도 기술의 발전에 맞춰 계속 진화해야 한다는 걸 보여주는 대목이다. 우리 개발자들도 LLM 활용법을 배우는 속도만큼이나, LLM의 한계를 이해하고 평가하는 방법도 계속 업데이트해야 할 때다.

Key Points

벤치마크가 무용지물이 된 이유

벤치마크의 짧은 유통기한