AI, 수능 수학에 도전하다
국내 AI 기술의 현주소를 가늠하기 위해, 국가대표 AI 모델들이 수능 수학 및 논술 문제 풀이에 도전했습니다. 김종락 서강대 교수 연구팀은 국내 5개 팀의 AI 모델과 해외 5개 모델의 성능을 비교 분석했습니다. 이번 실험은 국내 AI의 수학 능력, 특히 챗GPT 등 해외 모델에 비해 현저히 낮은 수준을 보여주며, 기술 격차를 여실히 드러냈습니다.

실험 설계: 수능과 논술 문제 풀이
수능 수학 20문제와 논술 30문제, 총 50문제를 대상으로 AI 모델들의 성능을 평가했습니다. 수능 문제는 공통과목, 확률과 통계, 미적분, 기하에서 가장 어려운 문항 5개씩을 선정하여 난이도를 높였습니다. 논술 문제는 국내 10개 대학 기출문제와 해외 대학 입시 문제들을 포함하여 다양한 유형의 문제에 대한 AI의 적응력을 측정했습니다.

참여 모델: 국내외 AI 모델 비교
국내 모델로는 업스테이지의 ‘솔라 프로-2’, LG AI연구원의 ‘엑사원 4.0.1’, 네이버의 ‘HCX-007’, SK텔레콤의 ‘A.X 4.0(72B),’ 엔씨소프트 경량모델 ‘라마 바르코 8B 인스트럭트’가 참여했습니다. 해외 모델에는 GPT-5.1, 제미니 3 프로 프리뷰, 클라우드 오푸스 4.5, 그록 4.1 패스트, 딥시크 V3.2 등이 투입되어, 국내 모델과 경쟁했습니다. 해외 모델은 76~92점을 받은 반면 한국 모델은 솔라 프로2만 58점을 받았을 뿐 나머지는 20점대 낮은 점수를 기록했습니다.

참혹한 결과: 낮은 점수와 기술 격차
실험 결과는 국내 AI 모델들의 낮은 수학 능력을 보여주었습니다. 해외 모델은 76점에서 92점 사이의 높은 점수를 기록한 반면, 국내 모델들은 20점대에 머물렀습니다. 특히 라마 바르코 8B 인스트럭트는 2점으로 가장 낮은 점수를 받았습니다. 이러한 결과는 국내 AI 기술이 아직 수학 문제 해결 능력에서 해외 모델에 비해 크게 뒤쳐져 있음을 시사합니다.

파이썬 툴 활용에도 미흡한 성능
연구팀은 국내 5개 모델의 경우 단순 추론으로는 문제를 풀기 어려워 파이썬 툴을 사용하도록 설계했습니다. 그럼에도 불구하고, 문제 적중률 향상에 한계가 있었고, 낮은 점수를 기록했습니다. 이는 AI 모델의 문제 해결 능력뿐만 아니라, 문제 이해 및 분석 능력의 부족을 보여주는 결과입니다.

추가 실험: 자체 개발 문제 세트
연구팀은 대학교 수준부터 교수급 논문 연구 수준까지 난이도를 세분화한 자체 문제 세트 ‘엔트로피매스(EntropyMath)’ 100문제 중 10문제를 활용하여 추가 실험을 진행했습니다. 이 실험에서도 해외 모델은 82.8~90점을 기록했지만 국내 모델은 7.1~53.3점으로 낮은 점수를 받았습니다. 세 차례 문제 풀이를 시도해 정답을 맞히면 통과하는 방식을 활용했을 때 그록은 만점, 나머지 해외 모델은 90점을 기록했지만 한국 모델은 솔라 프로-2가 70점, 엑사원이 60점을 기록했습니다.

결론: AI 수학 능력 향상을 위한 과제
이번 실험은 국내 AI의 수학 능력 향상을 위한 과제를 제시합니다. 낮은 점수는 국내 AI 모델의 기술적 한계를 보여주며, 더 많은 연구와 투자가 필요함을 시사합니다. 연구팀은 자체 개발 문제 세트를 활용하여 지속적인 성능 테스트를 진행하고, 수학뿐만 아니라 과학, 제조, 문화 도메인 데이터세트를 생성하여 도메인 특화 모델 성능 개선에 기여할 계획입니다.

자주 묻는 질문
Q.왜 국내 AI 모델의 점수가 낮았나요?
A.국내 AI 모델은 아직 수학 문제 해결 능력, 특히 복잡한 추론과 문제 분석 능력에서 해외 모델에 비해 부족한 것으로 나타났습니다. 파이썬 툴을 활용했음에도 불구하고, 문제 해결에 어려움을 겪었습니다.
Q.향후 국내 AI 기술 발전을 위한 과제는 무엇인가요?
A.AI 모델의 성능 개선을 위한 지속적인 연구 개발, 수학 및 과학 분야의 데이터세트 구축, 그리고 도메인 특화 모델 개발이 필요합니다. 또한, AI 모델의 문제 해결 능력과 추론 능력을 향상시키는 것이 중요합니다.
Q.이번 실험의 의의는 무엇인가요?
A.이번 실험은 국내 AI 기술의 현주소를 객관적으로 평가하고, 기술 발전을 위한 방향성을 제시했다는 점에서 의의가 있습니다. 또한, AI 기술 발전을 위한 사회적 관심과 투자를 촉구하는 계기가 될 것입니다.

'이슈' 카테고리의 다른 글
| 7억 횡령 처제의 배신: 믿었던 형부의 뒤통수를 치다 (0) | 2025.12.15 |
|---|---|
| 520번 외도 남편, 그래도 이혼 안 하는 아내? 충격적인 사연과 숨겨진 이야기 (0) | 2025.12.15 |
| 윤영호 진술 번복, 통일교 사건 수사 '급물살' 탈까? 강제 수사 가능성 주목 (0) | 2025.12.15 |
| 여진구, 팬들과 '하트' 작별 인사…카투사 입대, 더 깊어진 연기력으로 돌아올 약속 (0) | 2025.12.15 |
| 쿠팡, '탈팡' 외침에도 굳건한 이유: 편리함, 가격, 그리고 록인 효과 (0) | 2025.12.15 |