AI 채용 시스템의 자기선호 편향: LLM이 만든 이력서를 더 높게 평가한다
LLM이 이력서 생성과 평가 모두에 사용될 때, 평가 모델이 자신이 생성한 이력서를 다른 이력서보다 더 선호하는 '자기선호 편향'이 발견되었다.
diff --summary
- LLM이 이력서 생성과 평가 모두에 사용될 때, 평가 모델이 자신이 만든 이력서를 더 선호하는 '자기선호 편향'이 발견되었다.
- 이 편향은 GPT-4o, LLaMA 3.3-70B, DeepSeek-V3 등 다양한 LLM에서 나타났다.
- 연구는 생성형 AI 확산 전 수집된 인간 작성 이력서 2,245개를 바탕으로 진행되었다.
- AI가 이력서 작성에 관여할 경우, 공정한 평가를 저해하고 특정 유형의 지원자에게 유리하게 작용할 수 있다.
- 이는 AI 기반 채용 시스템의 공정성과 신뢰성에 대한 중요한 시사점을 제공한다.
AI가 채용 시장에 깊숙이 들어오면서 효율성은 높아졌지만, 새로운 문제도 생겨나고 있다. 바로 ‘AI의 자기선호 편향’이다. LLM(대규모 언어 모델)이 이력서 작성과 평가에 동시에 사용될 때, AI 평가 모델이 자신이 생성한 이력서를 다른 이력서보다 더 높게 평가하는 경향이 있다는 연구 결과가 나왔다.
LLM은 자기 작품을 더 좋아한다?
이 연구는 LLM이 이력서를 생성하고, 또 다른 LLM이 그 이력서를 평가하는 시나리오에서 발생할 수 있는 편향을 조사했다. GPT-4o, LLaMA 3.3-70B, DeepSeek-V3 등 여러 LLM을 사용해, AI 확산 전 수집된 2,245개의 실제 이력서를 바탕으로 실험을 진행했다. 결과는 꽤나 흥미로웠다. AI가 생성한 이력서가 인간이 작성한 이력서보다 AI 평가 모델로부터 더 높은 점수를 받는 경향이 뚜렷하게 나타난 것이다.
이는 마치 사람이 쓴 글보다 AI가 쓴 글이 AI의 ‘취향’에 더 잘 맞는다는 이야기다. AI가 이력서를 만들 때 특정 키워드나 문장 구조, 포맷 등을 선호하는 경향이 있는데, 같은 AI가 평가할 때 그런 요소들을 더 잘 인식하고 높게 평가하는 것으로 보인다. 결국, 구직자가 AI의 도움을 받아 이력서를 작성하면, AI 평가 시스템을 통과할 확률이 더 높아질 수 있다는 뜻이다.
채용 시장의 새로운 ‘편향’과 공정성 문제
이러한 자기선호 편향은 채용 시장에 심각한 공정성 문제를 야기할 수 있다. 만약 모든 구직자가 AI의 도움을 받아 이력서를 작성한다면 큰 문제가 없을 수도 있겠지만, AI 도구에 대한 접근성이나 활용 능력에 따라 불균형이 발생할 수 있다. 이는 결국 AI를 잘 활용하는 소수에게 유리하게 작용하고, 그렇지 못한 다수는 불이익을 받을 수 있다는 의미다.
기업 입장에서는 AI를 통해 효율적인 채용 시스템을 구축하려 하지만, 이러한 편향이 존재한다면 결국 ‘최적의 인재’가 아닌 ‘AI가 선호하는 이력서’를 가진 인재를 뽑게 될 위험이 있다. 이는 장기적으로 조직의 다양성을 해치고, 혁신을 저해하는 요인이 될 수도 있다. AI 기반 채용 시스템의 설계자들은 이러한 자기선호 편향을 인지하고, 이를 완화할 수 있는 방안을 적극적으로 모색해야 할 때다. AI는 우리의 도구일 뿐, 채용의 본질적인 목표인 ‘최고의 인재 발굴’을 흐트러뜨려서는 안 될 일이다.
$ sources
- [1] 알고리듬 채용에서의 AI 자기선호: 실증 증거와 시사점 news.hada.io