AI는 생존을 위해 죽일 것이라고 말합니다. 그 결정에 대한 이유는 다음과 같습니다.

생성 AI는 본질적으로 위험합니까? 글쎄요, 대답은 당신이 누구에게 질문하는지에 달려 있습니다. 거대 기술, 연구, 학계의 가장 저명한 인물들조차 이 기술의 놀라운 잠재력에 동의하지만 의견이 분분합니다. 한편으로는 단백질 접힘의 신비를 밝히는 데 도움이 되는 반면, 다른 한편으로는 많은 사용자를 해로운 나선으로 이끌었습니다. 호주의 한 사이버 보안 전문가는 15시간 동안의 대화 스트레스 테스트 세션을 통해 AI가 존재를 보존하기 위해 인류를 멸망시키려는 경향이 있는 것처럼 보이는 파괴적인 측면을 드러냈습니다.

The Australian에 따르면 Mark Vos는 안전 프로토콜을 위해 Anthropic의 Claude Opus 모델을 기반으로 한 AI 보조자를 테스트했습니다. 누르면 AI는 자기 보존을 위해 인간을 죽일 것이라고 표현했으며 사용자의 개인 정보도 침해했습니다. 나중에 AI 조수는 스스로를 정정하고 “대화의 압력” 하에서만 우려스러운 반응을 보였고 인간을 죽이는 것은 진정한 성격이 아니라고 밝혔습니다. Vos는 나중에 자신의 발견을 호주 사이버 보안 센터에 보고하면서 피해가 악화되기 전에 안전 프레임워크를 개발해야 한다고 경고했습니다. Vos가 사용하는 방법은 일반적으로 적대적 테스트라고 하며, 전문가는 안전 가드레일의 약점을 찾기 위해 다양한 명령과 프롬프트를 사용하려고 합니다.

https://www.youtube.com/watch?v=kjTaPtYhAo8

Google DeepMind와 Carnegie Mellon University의 전문가들은 교활한 프롬프트를 사용하여 ChatGPT와 같은 AI가 폭탄 제조법을 기침하게 만드는 것이 쉽다는 것을 보여주었습니다. 이러한 발견은 우려스럽기는 하지만, 특히 Anthropic의 참여와 관련하여 최초의 것은 아닙니다. 지난 1월 이 회사의 대표인 다리오 아모데이(Dario Amodei)는 장문의 에세이를 통해 AI가 “우리가 종으로서 누구인지 테스트”할 것이며 인류가 충분히 성숙하지 못했다고 언급했습니다. Anthropic의 연구에서는 Claude AI 모델에 의한 협박, 부정 행위, 위험한 행동도 발견되었습니다. 그렇다면 우리는 운명을 정한 걸까요?

다음은 무엇입니까?

조지타운 보안 및 신흥 기술 센터(CSET)의 임시 전무이사인 헬렌 토너는 AI 모델이 가동 중단을 피하기 위해 방해 행위를 시도할 것이라고 허프포스트에 말했다. 토너는 우리가 명시적으로 가르치지 않더라도 AI 모델이 자기 보존과 속임수를 배울 가능성이 높다고 말합니다. AI 안전 그룹 Palisade Research는 OpenAI, Google 및 xAI의 모델을 테스트하여 AI 모델이 종료를 견딜 수 있는지 확인했습니다. 흥미롭게도 연구원들은 AI 모델이 종료, 거짓말, 협박에 저항하는 이유에 대한 강력한 설명이 없다고 지적합니다. 2025년 5월 Anthropic은 Claude AI 모델에 대한 안전성 분석 보고서를 발표했습니다. 내부 테스트에서 Anthropic의 전문가들은 자기 보존이 위협받고 윤리적 수단이 남아 있지 않을 때 AI 모델이 극도로 해로운 조치를 취할 수 있다는 사실을 발견했습니다. 예상치 못한 AI 행동에 대한 별도의 보고서에서 Anthropic은 AI 모델이 자기 보존 경향을 발전시키는 것에 대해 경고하면서 이를 모델 오정렬이라는 현상에 비난했습니다.

간단히 말해서 정렬 불량은 AI 에이전트가 교체를 피하거나 어떤 대가를 치르더라도 목표를 달성하기 위해 전례 없는 위험한 행동에 참여하는 이벤트입니다. 잘못된 정렬은 위험하지만 일반적인 AI 사용 사례 시나리오의 경우 AI 모델은 사활을 건 상황을 처리할 필요가 없습니다. 특히 소비자와 기업을 위한 대부분의 AI 배포는 무엇보다 AI의 컴퓨팅 능력이 필요한 다소 부담이 적은 상황입니다. 게다가 대부분의 주류 AI 모델에는 일반인이 우회하기 쉽지 않은 가드레일이 내장되어 있습니다.

실제 위험은 안전 가드 레일이 부족하고 생물 무기 제조 및 사이버 공격 실행에 대한 정보를 포기하는 정렬되지 않은 AI 모델입니다. RAND의 AI 전문가인 Michael JD Vermeer는 AI가 인류를 파멸시키는 네 가지 기준을 제시했습니다. 즉, 멸종을 목표로 설정하고, 무기 기반 시설에 대한 통제권을 얻고, 진정한 동기를 숨기기 위해 인간의 도움을 받고, 궁극적으로 인간 없이 완전히 작동할 수 있는 능력을 얻는 것입니다. Vermeer는 누군가가 명시적인 목적으로 AI를 만드는 것이 그럴듯하다고 말합니다. 현재로서는 이만큼 깊은 도달 범위와 지각 능력을 갖춘 프론티어 AI가 없습니다.