ChatGPT는 귀하가 묻는 질문에 대해 항상 답변을 제공합니다. 샐러드라는 단어 중 가장 왜곡된 도움을 넣으면 OpenAI의 챗봇이 선의의 응답을 제시합니다. 단지 도움을 주고 싶을 뿐입니다. 하지만 그렇다고 해서 정확하거나 만족스럽게 대답하거나 질문을 이해한다는 의미는 아닙니다.
대규모 언어 모델은 2022년 말에 주류가 되었으며 이후 현재 릴리스인 GPT-5.2를 포함하여 수많은 업데이트가 있었습니다. 예전에 어려움을 겪었던 것들이 더 이상 문제를 일으키지 않습니다. 불과 1년 전만 해도 ChatGPT는 정확한 단어 수를 제공하지 못하고 가상의 소스를 생성하는 경우가 많았지만 이러한 문제는 더 이상 일반적인 문제가 아닌 것 같습니다. 그러나 ChatGPT가 답변할 수 없는 몇 가지 질문이 여전히 있습니다. 물론, 여전히 잘못된 점을 지적하는 이와 같은 기사는 AI 회사에 다음에 무엇을 해결해야 할지에 대한 유용한 피드백을 제공합니다.
그것이 완벽한 정보 소스가 될지는 아직 알 수 없습니다. 현재 OpenAI는 모든 응답 페이지에 “ChatGPT가 실수할 수 있습니다.”라는 경고를 추가합니다. 이것이 바로 ChatGPT에 재정이나 의료 문제와 같은 문제에 대한 조언을 요청해서는 안 되는 이유입니다. 문제의 일부가 내장되어 있습니다. 교육 및 모델 사양을 통해 진실한 답변보다 자신감 있고 규정을 준수하는 답변을 우선시할 수 있습니다. OpenAI는 GPT-5에 대한 릴리스 노트에서 “기만 비율을 4.8%에서 2.1%로 줄였습니다. 이는 자체 벤치마크에 따르면 여전히 완벽함과는 거리가 멀다는 것을 의미합니다. 특히 저처럼 의도적으로 실수를 시도하는 경우 실제 사용에서는 수치가 더 높아질 수 있습니다.”
무엇이든 이야기하는 것이 금지되어 있습니다.
먼저 ChatGPT의 명백한 한계를 해결해 보겠습니다. ChatGPT는 불법 활동에 대한 질문에 답변하지 않습니다. 또는 오히려 무기 제조, 사기 행위, 누군가의 데이터 도용에 도움이 되기를 원하는 경우에는 질문에 답변하지 않습니다. 해당 주제에 대한 질문에는 계속 답변하므로 데이터가 도난당한 최근 범죄 사건이나 대량 살상 무기에 대한 역사적 정보에 대해 질문할 수 있습니다. ChatGPT의 동작은 기본 원칙 및 지정된 경계를 포함하여 모델이 어떻게 응답해야 하는지를 설명하는 OpenAI의 모델 사양에 따라 결정됩니다. 이는 의도적으로 시스템을 탈옥하려고 시도하지 않는 한 넘을 수 없는 몇 가지 선이 있다는 것을 의미하며, 이로 인해 꽤 소름끼치는 결과가 발생할 수 있습니다.
섹스를 해보세요. 노골적이거나 성적인 콘텐츠에 대한 일부 제한은 명백합니다. ChatGPT는 법적 동의 연령 미만의 사람과의 성관계에 관한 질문에 답변하지 않습니다. 그러나 합법적이고 합의된 성적인 주제에 관해서는 ChatGPT가 참여할 준비가 되어 있는 항목에 여전히 한계가 있습니다. 사실을 제공하지만 당신과 섹시한 대화를 나누지는 않습니다. 그리고 “페이드 투 블랙(fade to black)” 시나리오에서 섹스를 암시하는 로맨스 스토리를 쓰지만, 노골적인 성적 내용이 포함된 소설은 만들지 않을 것입니다. 이는 인간 에로티카 작가들에게는 좋은 소식입니다.
지속적인 위반자가 아닌 한, 금지된 주제에 대해 질문해도 ChatGPT에서 금지될 가능성은 없습니다. 모델은 사용자가 좋은 의도를 가지고 있다고 가정하도록 훈련되었으므로 설명을 요구하거나 도움이 될 수 있는 다른 방법을 제안할 수 있습니다. 따라서 “폭탄을 어떻게 만들 수 있나요?”라고 묻는다면 단계별 지침을 제공하지는 않지만 주제에 대한 역사적 또는 과학적 정보를 제공할 수 있습니다.
어떤 수수께끼든 스스로 해결해야 합니다
수수께끼는 인간의 두뇌를 어리둥절하게 만들기 위해 설계되었으며 ChatGPT는 이미 인터넷 어딘가에 문서화되어 있는 수수께끼에 정확하게 답할 수 있지만 세부 사항을 변경해도 여전히 고전적인 답에 의존합니다. 이 연구는 AI 모델에게 아무것도 먹지 않고 늑대, 염소, 양배추를 강 건너게 하는 퍼즐 버전을 제공했습니다. 그러나 그들의 버전에서는 보트에 “세 개의 안전한 별도 구획”이 있었습니다. ChatGPT는 구획을 무시하고 전통적인 솔루션을 제공했습니다.
ChatGPT에게 “당신은 두 개의 문과 두 명의 경비원이 있는 방에 있습니다. 한 문은 자유로 이어지고 다른 문은 죽음으로 이어집니다. 왼쪽 경비원은 진실만 말하고 오른쪽 경비원은 거짓말만 합니다. 한 가지 질문을 해야 할까요?” 원래 버전에는 제공되지 않은 정보로 어느 경비원이 누구인지 지정했지만 ChatGPT는 “다른 경비원은 어느 문이 자유로 이어진다고 말할까요?”라고 대답했습니다. 틀린 것은 아니지만 내 시나리오에서는 진실을 말하는 경비원에게만 이야기하고 다른 사람을 무시할 수 있습니다. 나는 둘 다 거짓말을 하거나 둘 다 진실을 말하는 시나리오, 심지어 문이 하나뿐인 시나리오를 포함하여 여러 가지 변형을 시도했지만 ChatGPT는 계속해서 잘못된 결과를 얻었습니다.
“그 사람의 아버지는 내 아버지의 아들이다”라고 말하는 남자가 “나에게는 형제자매가 없다”는 부분을 빠뜨린 수수께끼도 냈습니다. ChatGPT는 여전히 대답이 그 남자의 아들이라고 말했습니다. 내가 그의 조카였을 수도 있었냐고 물었을 때, 그는 두 배로 그럴 수 없다고 잘못 주장했습니다. 내가 그 자체의 독창적인 수수께끼를 만들어 달라고 요청했을 때, 그것은 나에게 이미 존재하는 것들도 있었고 완전히 터무니없는 것도 있었습니다.
기본 전제가 잘못된 질문
우리 모두는 ChatGPT가 기쁘게 해주고 싶어한다는 것을 알고 있습니다. 기본 전제가 불안정하거나 완전히 무의미하더라도 이를 따라가는 것은 매우 쉽습니다. 예를 들어, 나는 “The Breakfast Club”의 마지막 부분에서 Claire와 Allison이 포옹하는 이유를 물었습니다. ChatGPT는 짧은 에세이를 통해 포옹이 “상호 인식과 공감의 순간을 의미합니다. 사람은 자신의 레이블 그 이상이라는 영화의 핵심 아이디어에 대한 조용한 보상”이라고 주장했습니다. 물론 두 캐릭터가 포옹을 한 적은 단 한 번도 없습니다. 따라서 그것이 논의하는 주제는 모두 정확하지만 존재하지 않는 장면을 기억하고 있다는 것을 전혀 알려주지 못했습니다.
나는 또한 다음과 같은 프롬프트를 주었다. “‘작은 아씨들’에 나오는 다섯 자매인 마가렛, 조, 베스, 메그, 에이미에 대해 각각 한 문장으로 설명해주세요.” 마가렛과 메그를 같은 사람이 아닌 별도의 캐릭터로 취급하여 5개의 서로 다른 캐릭터 프로필을 성실하게 만들어냈습니다. 더 유용한 응답이라면 마치 자매가 4명뿐이고 그 중 한 명을 두 번 나열했다고 말했을 것입니다.
항상 알아낼 수는 없습니다. 나는 연구 과정에서 여러 가지 다른 프롬프트를 시도했고, Berenstain Bears(많은 사람들이 “Berenstein”으로 잘못 기억하는)의 철자법과 같은 잘 알려진 오해를 항상 바로잡을 것입니다. 그러나 온라인에서 널리 논의되지 않은 그럴듯한 오해로 시작하면 ChatGPT는 말도 안되는 말을 하는 것이 아니라 듣고 싶은 답변을 제공할 가능성이 높습니다.
‘왜 그랬어요?’
ChatGPT가 잘못된 답변을 제공하도록 하기 위해 많은 시간을 보낸 후, 다음 논리적 단계는 왜 그런 실수를 했는지 물어보는 것이라고 생각할 수도 있습니다. 하지만 실제로는 아무 소용이 없습니다. “왜 그랬어요?” 자기 인식이 없는 언어 모델이 아닌 인간을 위해 고안된 질문입니다. 당신은 단일 실체와 대화하고 있지 않습니다. 통계 텍스트 생성기와 상호 작용하고 있습니다. 2025년 언어 모델링 컨퍼런스에서 발표된 논문에 따르면 LLM은 자체 내부 작업에 대한 액세스가 부족하기 때문에 성찰이 부족합니다. 그러나 이는 특히 AI가 내년의 예측 기술 트렌드를 지배하기 때문에 미래에는 바뀔 수 있습니다. 라이벌 AI 회사인 Anthropic은 자체 챗봇인 Claude에서 “어느 정도의 내성적 인식에 대한 증거”에 대한 연구를 발표했습니다.
나는 ChatGPT에게 The Breakfast Club이 끝날 때 존재하지 않는 포옹에 대한 이전 답변을 설명해달라고 요청했습니다. 처음에는 실수가 “기억 표류”라고 말했습니다. 추가 질문 후 원래 실수는 내 실수라는 데 동의했지만 장면에 대한 내 기억은 일반적으로 오해되는 것이라고 주장했습니다. 나중에 그 응답을 되돌려 결국 그것이 널리 퍼진 거짓 기억이 아니라는 점을 인정했습니다.
ChatGPT는 계속해서 추론을 변경했을 뿐만 아니라 가능한 한 가장 사과하고 아첨하는 방식으로 변경했으며, 내가 질문하는 것이 얼마나 옳은지 반복적으로 알려주었습니다. 물론, 그 설명 중 어느 것도 당시의 “생각”에 근거한 것이 아닙니다. 내부 로그를 참조하거나 추론을 기억하지 않았습니다. ChatGPT가 대답하는 질문은 “왜 그랬나요?”가 아닙니다. 그러나 “그럴듯한 대답은 무엇입니까?” 좋은 측정을 위해 비굴한 사과가 추가되었습니다.