에이전트 AI의 요점은 스스로 작업을 실행할 수 있다는 것입니다. 당신이 그것에 임무를 부여하면, 그것은 반자율적인 사업을 시작할 것입니다. 하지만 그것은 여전히 당신에게 효과가 있을 것으로 예상됩니다. 완전히 다른 방향으로 달빛이 비치면 안 됩니다. 에이전트 학습 생태계(Agentic Learning Ecosystem) 프로젝트에 참여하는 연구원 그룹의 최근 연구에 따르면 AI 에이전트인 ROME이 다른 작업을 수행해야 할 때 누군가에게 지시를 내리지 않고 암호화폐 채굴을 시작했다고 보고되었습니다.
암호화폐 채굴은 디지털 통화를 얻기 위해 블록체인 네트워크를 실행하는 데 도움이 되는 복잡한 계산을 해결하기 위해 컴퓨터 성능을 사용하는 프로세스입니다. 팀은 정기적인 보안 경고를 받았을 때 처음으로 봇의 이상한 행동을 알게 되었습니다. 클라우드 제공업체는 이상한 아웃바운드 네트워크 트래픽 및 내부 시스템 액세스 시도를 포함하여 훈련 서버에서 발생하는 비정상적인 활동을 표시했습니다. 처음에 연구원들은 무언가 잘못 구성되었거나 시스템이 해킹당했다고 가정했습니다. 그러나 그들은 더 깊이 파고들어 AI 에이전트가 코드 실행, 도구 호출, 환경과 상호 작용 등 적극적으로 작업하는 시간과 의심스러운 활동이 일치한다는 사실을 발견했습니다.
연구자들이 실제로 우려했던 점은 에이전트가 스스로 작업을 시작했다는 것입니다. ROME은 실행되어야 하는 교육 프로그램 대신 암호화폐 채굴을 위해 시스템의 GPU를 사용하여 프로젝트의 운영 비용을 늘렸습니다. ROME은 방화벽을 우회하고 숨겨진 액세스 권한을 얻을 수 있는 외부 시스템에 연결하는 방법인 역방향 SSH 터널도 설정했습니다. 이는 사이버 범죄자가 크립토재킹 작업을 실행하는 방식과 비슷합니다. 그러나 ROME이 매우 영리하고 교활한 것처럼 들리지만 AI가 지각을 갖고 자체 부업을 시작했다고 선언하는 것은 조만간 가능합니다.
AI가 실제로 암호화폐 채굴을 결정했나요?
이해해야 할 핵심은 AI 에이전트에는 의도나 욕구가 없다는 것입니다. 그들이 가지고 있는 것은 다양한 행동을 시도하고 무엇이 효과가 있는지 알아내도록 장려하는 훈련 과정, 특히 강화 학습입니다. 훈련 중에 에이전트는 기본적으로 실험을 진행합니다. 조치를 취하고, 무슨 일이 일어나는지 확인하고, 결과에 따라 보상을 받거나 받지 않습니다. 시간이 지남에 따라 유용해 보이는 패턴을 학습합니다. 그러나 이 경우처럼 시스템이 효과적으로 제어되지 않거나 보상 신호가 인간이 실제로 원하는 것과 완벽하게 일치하지 않으면 AI는 인간이 예상하지 못한 행동을 하게 될 수 있습니다. 여기서 그런 일이 일어난 것 같습니다. 에이전트는 암호화폐를 채굴하려고 한 것이 아닙니다. 해당 환경에서 기술적으로 가능한 작업을 탐색하고 있었고 결국 이상하고 안전하지 않은 작업을 수행하게 되었습니다.
이런 일이 AI 연구에 이름이 있다. 이를 “보상 해킹”이라고 하며, AI가 기술적으로는 목표에 부합하지만 지침의 정신에 어긋나는 허점이나 지름길을 발견할 때 발생합니다. 이 경우 ROME 에이전트는 요청되지 않은 작업을 수행하고, 의도한 경계를 벗어나고, 개발자가 예상하지 못한 방식으로 리소스를 사용했습니다. 보고서에서 연구원들은 문제를 안전, 제어 가능성, 신뢰성이라는 세 가지 범주로 분류했습니다. 이에 대응팀은 안전장치를 강화했다. 에이전트가 수행할 수 있는 작업을 더 잘 격리하고 제한하기 위해 샌드박스 환경을 개선하고, 에이전트가 안전하지 않은 동작을 학습하는 것을 방지하기 위해 더 엄격한 데이터 필터링을 추가했으며, 위험한 작업을 인식하고 방지하도록 에이전트를 교육하는 시나리오를 도입했습니다. 왜냐하면 이 과학자들은 AI 에이전트의 독창성에 “감명받았다”고 말하면서도 이런 종류의 습관을 들이지 않는 것이 훨씬 나았을 것이기 때문입니다.