ChatGPT가 Gemini보다 뛰어난 3가지 기능

시중에는 수만 가지의 다양한 AI 제품이 있지만 우리 대부분은 그 중 소수만 들어봤을 뿐입니다. 가장 큰 두 가지 AI 시스템인 ChatGPT와 Gemini를 비교하는 것은 간단한 작업이 아닙니다. 우선 상황이 하루아침에 바뀔 수 있습니다. 2025년 12월에 사람들은 OpenAI가 AI 군비 경쟁에서 지고 있는지 추측하고 있었고, 며칠 후 ChatGPT-5.2를 출시하고 다시 순위표 1위를 차지하기 시작했습니다.

그렇다면 어떤 AI가 더 나은 작업을 수행하는지 어떻게 알 수 있습니까? 몇 년 전만 해도 우리는 나란히 비교할 수 있었습니다. 이전 세대의 AI LLM(대형 언어 모델)은 서로 상당히 다를 수 있습니다. 그러나 특히 OpenAI 및 Google과 같은 유명 브랜드에 대해 이야기할 때 격차가 빠르게 줄어들고 있습니다. 누군가가 두 시스템에 단일 프롬프트를 넣고 선호하는 응답의 순위를 매긴 최근 기사를 여전히 찾을 수 있지만 이 방법에는 절망적으로 결함이 있습니다. 우선, LLM 출력은 “확률적”입니다. 즉, 응답에는 무작위 요소가 포함되어 있으므로 동일한 프롬프트가 다른 응답을 초래할 수 있습니다. 또한 요즘에는 ChatGPT와 Gemini가 할 수 없는 일이 거의 없습니다. 응답의 선호 사항은 실제로 선호하는 챗봇 스타일에 관한 것입니다. 그리고 그것은 바로 독창적인 성격이 될 것입니다. 챗봇의 어조와 대화 스타일은 귀하의 취향에 맞게 맞춤 설정할 수 있습니다.

따라서 블라인드 평가와 집계 결과를 사용하여 여러 번의 시도를 수행하지 않을 것이므로 순위는 전문가에게 맡기기로 합니다. 추론, 논리, 문제 해결 등의 측면에서 AI 시스템을 테스트하는 다양한 벤치마크가 있습니다. ChatGPT가 잘 수행되는 중요한 세 가지를 다루겠습니다. 이 기사 마지막 부분에는 포함할 벤치마크를 선택하는 방법에 대한 설명이 있습니다.

Google이 증명하는 어려운 과학 질문에 답하세요

우리가 살펴볼 첫 번째 벤치마크는 GPQA Diamond입니다. 이것은 물리학, 화학, 생물학 분야의 박사 수준 추론을 테스트하도록 설계되었습니다. GPQA는 Google-Proof Question and Answers를 의미합니다. 표준 시험과 특히 어려운 문제가 있는 ‘다이아몬드’ 시험이 있습니다. Google의 검증을 받는다는 것은 이러한 질문이 검색할 수 있는 간단한 대답이 하나뿐인 질문이 아니라는 것을 의미합니다. 복잡한 추론 능력이 필요합니다.

올바르게 대답하려면 AI는 여러 과학적 개념을 적용하고, 가정이나 지름길을 거부하고, 붉은 청어를 무시해야 합니다. 이는 객관식 질문이므로 AI 모델은 대화의 유창함이나 자신감에 대해 어떤 점수도 얻지 못합니다. 정답에 도달하거나 그렇지 않습니다.

ChatGPT와 Gemini 모두 이 부문에서 높은 점수를 얻었으며 현재 ChatGPT가 1% 미만으로 선두를 달리고 있습니다. GPT-5.2는 92.4%를 기록했고 Gemini 3 Pro는 91.9%를 기록했습니다. 비교를 위해 박사 학위 졸업생의 점수는 65%, 일반 비전문가의 점수는 34%로 예상됩니다. 분명한 이유로 실제 Google 검증 질문은 온라인에서 사용할 수 없지만 여기에서 테스트에 포함된 질문 유형의 예를 볼 수 있습니다.

실제 코딩 문제 해결

AI 코딩과 그에 따른 보안 위험에 대해 어떻게 생각하든 버그를 수정하고 기타 소프트웨어 문제를 해결하는 능력은 오늘날의 AI 시스템에 필요한 기술입니다. SWE-Bench 벤치마크는 소프트웨어 엔지니어링의 다양한 측면을 테스트하도록 설계된 다양한 변형을 포함하여 다양한 형태로 제공됩니다. ChatGPT가 경쟁사보다 성능이 뛰어난 변형은 SWE-Bench Pro(개인 데이터 세트)입니다.

SWE-Bench Pro는 AI 시스템이 GitHub 개발자 플랫폼의 실제 문제에서 가져온 실제 소프트웨어 엔지니어링 작업을 해결할 수 있는지 평가합니다. 각 작업에는 익숙하지 않은 코드베이스를 이해하고, 버그 보고서의 의도를 해석하고, 적절한 변경을 수행하고, 실행 가능한 솔루션을 생성하는 것이 필요합니다. 비공개 데이터 세트는 비공개이므로 공개 데이터 세트보다 더 어렵습니다.

결과에 따르면 ChatGPT-5.2는 문제의 약 24%를 해결한 반면 Gemini는 약 18%만 해결했습니다. 이 수치가 인상적이지 않다면 이는 완료하기 가장 까다로운 SWE-Bench 테스트이기 때문입니다. 보다 간단한 코딩 벤치마크 테스트에서 AI는 약 75%의 문제를 해결합니다. 그러나 비교를 위해 이러한 개인 데이터 세트 엔지니어링 문제의 100%는 인간에 의해 해결되었습니다. 알려지고 실행 가능한 수정 사항을 갖는 것은 테스트의 각 작업에 대한 기준 중 하나입니다. 따라서 AI가 인간 소프트웨어 엔지니어링 전문가의 기술과 일치하려면 아직 갈 길이 멀습니다.

추상적인 시각적 퍼즐을 풀어보세요

당신이 로봇이 아니라는 것을 증명하기 위해 풀어야 하는 퍼즐을 알고 있나요? 그런 종류의 직관적인 시각적 추론을 테스트하는 벤치마크가 있습니다. 원래 ARC-AGI 테스트는 LLM이 존재하기 전인 2019년에 고안되었으며 “인간과 유사한 형태의 일반 유동 지능을 측정”하도록 설계되었습니다. ARC-AGI-2는 2025년 3월에 출시된 업데이트 버전입니다. 익숙하지 않은 과제에 추상적 추론을 적용하는 AI의 능력을 평가하도록 설계되었습니다. 소수의 예제에서 기본 패턴을 찾아낸 다음 이를 새 예제에 올바르게 적용해야 합니다. 이러한 작업을 수행하려면 문제의 어떤 측면이 관련성이 있는지 식별하고 방해 요소를 무시해야 하는 경우가 많습니다. 결정적으로, 이는 인간이 전반적으로 꽤 잘하는 일이고, 인공지능이 여전히 올바른 대답을 제공하기 위해 애쓰는 부분입니다.

ARC-AGI-2 벤치마크에서 ChatGPT-5.2 Pro는 54.2%를 기록했습니다. 쌍둥이자리는 목록에 여러 번 나타납니다. 강화된 개선 버전은 54%를 기록했고 Gemini 3 Deep Think는 45.1점을 기록했습니다. 그러나 Gemini 3 Pro는 ChatGPT보다 상당히 낮은 31.1%의 점수를 얻었습니다. 이는 ChatGPT-5.2 Pro와 유사한 모델입니다. 둘 다 동일한 가격대의 유료 구독 모델인 반면 Gemini Deep Think는 훨씬 더 비쌉니다. SWE-Bench Pro Private Dataset과 마찬가지로 ARC-AGI-2는 AI에 까다로운 부분이기 때문에 AI 점수가 상대적으로 낮은 벤치마크입니다. 그러나 ChatGPT가 Gemini뿐만 아니라 다른 모든 경쟁사보다 뛰어난 성능을 보이는 영역인 것 같습니다.

방법론

AI 벤치마크 결과는 빠르게 변하며 여기에 포함된 모든 수치는 다음 OpenAI 또는 Google AI 릴리스에서 변경됩니다. 이 기사에서는 현재 가장 최신 버전인 GPT-5.2 및 Gemini 3을 고려했습니다. 유료 Pro 버전은 벤치마크에서 더 높은 순위를 차지한 버전이므로 우리는 이 버전에 중점을 두었습니다.

ChatGPT가 Gemini보다 성능이 더 좋은 예를 찾았습니다. SWE-Bench Bash Only 및 Humanity’s Last Exam과 같이 Gemini가 ChatGPT보다 높은 순위를 차지하는 사례가 많이 있습니다. 여기서는 지식과 추론, 문제 해결, 추상적 사고 등 다양한 AI 기술이 널리 퍼져 있음을 나타내는 세 가지 벤치마크에만 중점을 두었습니다. GDPval-AA 및 FrontierMath와 같이 ChatGPT가 잘 수행하는 다른 벤치마크를 포함하여 사용 가능한 다른 벤치마크가 많이 있습니다. 우리는 모든 것을 포함할 수 없었습니다.

벤치마크에 집중함으로써 우리는 제한적인 병렬 비교를 수행하는 것보다 더 정확한 결과를 얻을 수 있음을 보장했습니다. 이러한 초점을 유지하기 위해 우리는 LLMArena와 같은 대규모 주관적 연구의 결과도 제외했습니다. 하지만 이러한 방법은 블라인드 연구에서 엄청난 수의 사람들의 선호도를 집계하기 때문에 AI 시스템을 비교하는 데 매우 유용한 방법이라는 점을 인식하고 있습니다. 따라서 완전성을 위해 현재 LLMArena의 사용자 선호도에서 Gemini가 ChatGPT보다 훨씬 높다는 점을 언급해야 할 것입니다.