OpenAI는 인공지능 '군비경쟁'에서 뒤처지고 있는가?

AI 개발을 “군비 경쟁”으로 묘사하는 것은 불필요하게 과장된 것처럼 보일 수 있지만, 이 용어가 일반적으로 사용되는 이유가 있습니다. 이는 기업이 AI 시스템을 개발하고 배포하는 속도와 강도를 요약합니다. 경쟁자가 빠르게 움직이고 있기 때문에 모두가 빠르게 움직여야 하며, 누구도 뒤처지고 싶어하지 않습니다.

2025년 12월 2일 샘 알트만이 내부 메모를 통해 코드 레드를 발행했다는 사실이 널리 보도됐다. Google이 11월 18일 Gemini 3(Gemini 3 Pro 및 3 Deep Think 포함)을 출시하고 Anthropic이 11월 24일 Claude Opus 4.5를 출시하면서 OpenAI의 ChatGPT가 우위를 잃고 있다는 추측이 나왔습니다. Atlantic은 12월 9일 기사를 게재하여 OpenAI가 “AI 경쟁에서 뒤쳐지고 있다”고 말하면서 “OpenAI는 수개월 동안 주요 AI 벤치마크에서 안정적이거나 설득력 있는 선두를 유지하지 못했다”고 선언했습니다. 하지만 12월 11일 OpenAI가 버전 5.2를 출시하고 갑자기 ChatGPT가 다시 한번 상승세를 타기 때문에 인공지능 업데이트에 이틀은 긴 시간입니다.

그렇다면 ChatGPT가 최고의 AI 모델일까요? 예상할 수 있듯이 상황은 그보다 훨씬 더 복잡합니다. OpenAI는 GPT-5.2가 다단계 프로젝트, 프레젠테이션, 스프레드시트와 같은 전문 지식 작업에 더 좋다고 주장합니다. Google에서 Gemini의 가장 최근 릴리스는 다중 양식과 뉘앙스 이해에 관한 것이었고 Anthropic의 Claude는 에이전트 코딩 및 버그 수정에 능숙합니다. 그리고 서로 다른 AI 시스템은 서로 다른 분야에 능숙하기 때문에 단일 모델이 모든 분야에서 최고일 수는 없습니다.

ChatGPT가 벤치마크에서 얼마나 잘 수행되고 있는지

Gemini, Grok, Perplexity, Claude, ChatGPT, Copilot 등 휴대폰 화면의 AI 아이콘 클로즈업

AI 모델 순위를 매길 때 벤치마크에 대한 이야기를 많이 듣습니다. 사람들은 사물에 숫자를 매기는 것을 좋아하므로 AI 연구자와 기업은 AI 시스템이 특정 작업에 대해 얼마나 잘 수행되는지 측정하고 점수를 매기기 위해 표준화된 테스트를 함께 진행합니다. 벤치마크에는 한계가 없습니다. 높은 점수가 반드시 더 나은 사용자 경험을 의미하는 것은 아니며 모델은 실제로 더 유용하다는 대가를 치르더라도 최고의 테스트에 맞게 최적화될 수 있습니다. 그럼에도 불구하고 벤치마크는 AI 모델을 객관적으로 비교하는 데 필요한 최고의 데이터로 남아 있습니다.

복잡한 과학 기반 추론 테스트인 GPQA Diamond에서 ChatGPT 5.2 Pro는 93.2%의 점수를 얻었으며 이는 다른 AI 모델보다 우수합니다. Gemini 3 Pro는 91.9%로 2위를 차지했습니다. ARC-AGI 2 벤치마크에서는 ChatGPT가 더 나빴습니다. 이 테스트는 인간에게는 직관적이지만 AI에게는 까다로운 시각적 퍼즐을 사용합니다. 이는 로봇이 아님을 증명하는 CAPTCHA 퍼즐과 비슷합니다. 여기에서 직접 퍼즐을 풀어볼 수 있습니다. Claude Opus 4.5는 여기의 모든 경쟁 제품보다 훨씬 뛰어납니다.

또 다른 벤치마크인 HLE(Humanity’s Last Exam)는 가장 영리한 사람이라도 어려움을 겪는 전문가 수준의 개방형 문제를 사용합니다. 이는 인간이 AI를 위해 설정할 수 있는 마지막 의미 있는 학업 시험이 되도록 의도되었습니다. 여기서 AI가 지속적으로 인간보다 더 나은 성능을 발휘하면 AI는 우리보다 더 똑똑해질 것이며 우리는 더 이상 인공 지능을 측정하기 위한 의미 있는 테스트를 설정할 수 없게 될 것입니다. 현재 HLE에서 가장 좋은 성능을 보이는 AI는 45.8%의 Gemini 3 Pro입니다. OpenAI는 ChatGPT 5.2 Pro의 점수가 36.6%로 GPT-5의 35.2%보다 향상된 점수라고 주장하지만 여전히 Gemini와 덜 알려진 오픈 소스 AI인 Kimi K2 Thinking(44.9%)에 이어 3위를 차지하고 있습니다.

그렇다면 OpenAI가 문제에 봉착한 걸까요?

ChatGPT가 표시된 스마트폰과 배경에도 ChatGPT가 표시된 노트북을 들고 있는 손

많은 벤치마크에서 OpenAI의 ChatGPT는 지속적으로 AI 모델 상위 5위 안에 들었고, 일부 전문 분야에서는 1위를 차지했습니다. 그래서 뒤처지고 있다는 말은 좀 무리한 것 같습니다. 즉, 경쟁사보다 얼마나 앞서 있었는지 생각해 볼 때까지 말입니다. 2023년과 2024년 대부분 동안 벤치마크 전반에서 선두를 차지할 가능성이 훨씬 더 높았습니다. 벤치마크 외에도 사용자가 익명으로 AI 모델을 직접 비교하는 공개 플랫폼인 LMArena와 같이 AI 모델의 점수를 매기는 다른 방법도 있습니다.

이 글을 쓰는 시점에 LMArena에서 가장 좋아하는 제품은 Gemini 3 Pro이며 ChatGPT가 8위를 차지했습니다. 2023년에는 ChatGPT가 플랫폼(당시 Chatbot Arena)에서 지속적으로 첫 번째로 등장했습니다. 2024년 중반에도 여전히 목록 1위를 차지했습니다. 그러나 2024년 말까지 ChatGPT는 처음으로 선두를 차지한 Gemini와의 경쟁에 직면했습니다. 2025년 내내 대형 AI 회사들은 서로 도약해 왔으며 종종 새로운 출시 이후 선두를 차지했지만 라이벌의 다음 업데이트로 인해 압도당했습니다.

Google 및 Microsoft와 같은 회사는 AI 도입을 늘리기 위해 사람들이 이미 사용하고 있는 도구에 Gemini 및 Copilot을 통합할 수 있다는 점에서 OpenAI에 비해 이점이 있습니다. 그러나 사용자 수에 있어서 OpenAI의 경쟁자들은 OpenAI의 수치에 근접하기 전에 따라잡을 길이 멀고도 멀습니다. ChatGPT는 월간 방문자 수가 56억 명에 달하며 전체 AI 사용의 약 60%를 차지합니다. 시장 점유율은 Gemini, Claude, Grok, Copilot 및 기타 모든 AI 도구를 합친 것보다 큽니다. 기술 전문가가 반드시 선호하는 것은 아닐 수도 있지만 대부분의 사람들은 실제로 벤치마크에 관심이 없습니다. 일반 사용자들 사이에서 ChatGPT의 1위 자리는 여전히 경쟁의 여지가 없습니다.

OpenAI는 인공지능 ‘군비경쟁’에서 뒤처지고 있는가?

ChatGPT가 벤치마크에서 얼마나 잘 수행되고 있는지

그렇다면 OpenAI가 문제에 봉착한 걸까요?