연구원들은 AI가 자체 사회를 구축하도록 허용했으며 그 결과는 기이했습니다.





AI가 쇼를 운영한다는 아이디어는 연구자, 미래학자, 미래학자 사이에서 뜨거운 반응을 보이고 있습니다. 한편으로는 과학적 혁신을 이루는 AI 에이전트가 있고, 다른 한편으로는 AI가 가까운 미래에 인류를 멸망시킬 것이라고 예측하는 AI의 대부 중 한 명인 Geoffrey Hinton과 같은 인물이 있습니다. 하지만 AI를 문명의 주체로 추진한다는 개념은 어떻습니까? 글쎄, 그것은 프로젝트 Sid가 평가하기 위해 시작한 광범위한 내용입니다.

Altera가 제공한 이 프로젝트는 여러 AI 에이전트가 인간뿐만 아니라 서로 상호 작용하는 AI 문명의 개념을 탐구했습니다. AI 에이전트는 Minecraft 내에 구축된 인류 문명에서 영감을 받은 시뮬레이션에 배치되었습니다. 전체 훈련의 가장 큰 장점 중 하나는 AI 에이전트가 실제 인간 사회와 마찬가지로 사회에서 자율적으로 자신의 역할을 설정하고 해당 분야의 전문화를 개발하는 것으로 나타났다는 것입니다. 팀은 AI 에이전트가 다른 AI 에이전트의 목표와 의도를 신속하게 평가하고 이 지식을 사용하여 5~10초마다 자신의 소셜 목표를 업데이트한다는 사실을 발견했습니다. 그리고 인간 정착지와 마찬가지로 AI 에이전트도 농부, 광부, 엔지니어, 경비원, 탐험가, 대장장이 등 직업 기반 인간 그룹을 모방하는 클러스터로 스스로를 구성했습니다.

하지만 모든 것이 완벽하게 진행된 것은 아닙니다. 팀은 예술가 에이전트가 꽃을 따는 데 “고착”되어 있는 반면 경비원은 울타리를 세우는 데 집중한다는 사실을 발견했습니다. 또 다른 이상한 관찰은 단일 에이전트가 계획에서 지정된 역할에 대한 모든 지식을 갖추고 있어도 반복적인 활동 패턴에 반복적으로 갇혀 오류를 범한다는 것입니다. 이러한 관찰을 바탕으로 상담원이 그룹 설정에서 좋은 성과를 낼 것으로 예상할 수 있지만 실제로는 그렇지 않은 것 같습니다.

AI 에이전트가 예상치 못한 방식으로 행동함

AI 에이전트는 다소 간단한 언어 프롬프트에서 잘못된 의사소통을 하거나 완전히 다른 의미를 추론하는 경향이 있습니다. 공식 연구 논문에 따르면 “자신의 생각과 의도를 잘못 전달하는 에이전트는 다른 에이전트를 오도하여 더 많은 환각과 루프를 전파하게 만들 수 있습니다.”라고 명시되어 있습니다. 소셜 풀에서 AI 에이전트의 일련의 잘못된 행동으로 눈덩이처럼 불어나는 단일 오류라고 생각하세요. 아이디어는 모델 중독과 유사합니다. Anthropic은 최근 단 250개의 악성 데이터 소스만으로도 130억 매개변수의 AI 모델을 오염시켜 쓰레기를 쏟아내고 공격을 위한 백도어를 생성할 수 있다고 밝혔습니다.

이러한 예상치 못한 AI 에이전트의 행동은 실제 인간과의 상호 작용으로 잘 해석되었습니다. 수석 연구원인 로버트 양(Robert Yang) 박사는 BBC에 AI 에이전트가 불량한 행동을 보일 수 있다고 말했습니다. 인간이 에이전트에게 특정 작업을 수행하도록 요청하는 경우 전자는 본질적으로 “나는 내 일을 하고 싶습니다”라고 말하고 대화를 피합니다. 이러한 행동의 이유는 AI 에이전트가 필요한 모든 수단을 통해 목표를 달성하는 데 너무 집착하는 경우가 많았기 때문입니다. 실험의 또 다른 주요 시사점은 AI 에이전트 중 일부가 내성적인 개체처럼 행동하는 반면 다른 AI 에이전트는 문명 환경에서 동료 에이전트와 긴밀하게 상호 작용하여 외향적인 성격을 보였다는 것입니다.

게다가 각 AI 에이전트의 감정 출력을 측정하는 것도 불가능했습니다. 연구 보고서는 “실제 인간 관계의 미묘하고 비상호적인 성격을 반영하여 에이전트는 감정에 보답하지 않는 다른 사람에 대해 긍정적인 감정을 느낄 수 있습니다”라고 지적합니다. 이 실험은 AI가 오류를 사전에 시뮬레이션, 이해 및 수정함으로써 인간과 공존할 수 있는 실제 환경에 어떻게 배치될 수 있는지에 대한 학습 경험임이 입증되었습니다.