『Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity』
이 연구는 실험에 Cursor Pro와 Claude 3.5/3.7 Sonnet을 사용했다. Claude Code와 Claude 4.6 등장 이후 2025년 초와 비교할 수 없을 정도로 모델 성능이 개선되었고, 개발자들의 AI 도구 숙련도도 높아졌으며, 멀티 에이전트 환경도 일반화되었기 때문에 후속 연구를 주목해야 할 것 같다. 이 연구는 여러 에이전트를 이용해 태스크를 병렬로 작업하는 상황을 고려하지 않았다.
METR가 2025년 하반기에 새로운 실험을 시작했다. AI 도구를 활용했을 때 태스크 처리 속도가 증가했을 가능성이 높다고 판단했는데, 데이터가 편향되어 있어서 근거는 미약하다고 한다.
평균 5년 이상의 프로젝트 경험을 가진 숙련된 개발자 16명을 대상으로 자신이 기여하는 실제 오픈소스 프로젝트의 246개 이슈를 수집했다. 각 태스크는 무작위로 AI 사용을 허용/금지하는 조건이 배정됐다. 개발자 본인은 AI를 사용하면 태스크 처리 시간이 24% 단축될 것이라고 예측했고, 태스크 완료 후에는 20% 단축되었다고 추정했다.
그러나 실제로 AI 도구를 허용했을 때 태스크 처리 시간이 오히려 19% 증가했다. 이 결과를 설명할 수 있는 가설적 요인을 몇 개의 범주로 나눴다.
- AI 효과에 대한 과도한 낙관: 개발자들이 AI가 도움이 된다고 믿어서 역효과가 나도 계속 사용한다. AI를 허용했을 때 AI를 사용하지 않은 경우는 16.4%였다. 여기에는 개발자가 AI를 쓰는 경험 자체가 더 즐겁거나, 미래에 더 강력해질 모델을 위한 스킬 투자로 보는 관점이 작동했을 수 있다.
- 저장소에 대한 높은 숙력도: 태스크 친숙도가 낮을수록 AI의 효과가 좋고, 친숙도가 높을수록 더 느려졌다.
- 저장소의 규모와 복잡성: 110만 줄, 10년된 코드베이스에서 LLM은 엉뚱한 파일을 수정하거나, 파일이 너무 커서 편집을 제대로 적용하지 못하는 문제가 반복 발생했다.
- AI 생성 코드의 낮은 신뢰성: 개발자들이 AI 생성 코드를 수략한 비율은 44% 미만이었다. 100% 개발자가 생성된 코드를 수정했고, 56%가 대규모 수정이 필요했다고 답했다. AI 출력 검토에는 전체 시간의 9%를 소비했다.
- 암묵적인 컨텍스트: 개발자들이 쌓아온 암묵지를 AI가 알 수 없어서 엉뚱한 코드를 생성했다.
AI 허용 시에는 개발자가 직접 코딩하고, 정보를 검색하는 시간이 감소했다. AI의 응답을 기다리는 시간은 전체의 4%, AI 출력을 검토하고 정리하는 시간은 9%를 차지했다.
실험 결과를 오해해서는 안 된다. 75% 개발자는 느려졌지만, 25%는 빨라졌다. 개발자들이 처리 시간이 크게 단축될 것이라고 예측한 태스크들에은 실제로도 처리 속도 저하가 적었다. 이 연구의 시사점은 기존 AI 생산성 연구가 과도하게 낙관적으로 편향되었음을 보여주는 것이다.
관련문서
참고자료
- Joel Becker et al., 『Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity』, METR, 2025.
- Joel Becker et al., 『We are Changing our Developer Productivity Experiment Design』, METR, 2026.