해커들이 대중적인 AI를 사용하여 막대한 양의 정부 데이터를 훔친 방법

민감한 데이터를 훔치기 위해 정부 시스템을 침해하는 해커는 새로운 것이 아니며 그러한 시스템이 존재하는 한 계속 발생해 왔습니다. 그러나 AI 덕분에 멕시코 정부가 어렵게 발견한 것처럼 공격자는 더 이상 기술적으로 능숙할 필요가 없습니다. 한 달 넘게 공격자 그룹은 Anthropic의 Claude 챗봇을 사용하여 멕시코 컴퓨터 시스템에 침투하여 대량의 민감한 정보를 훔쳤습니다. 도난당한 수백만 개의 파일 중에는 정부 자격 증명은 물론 납세자 및 유권자 정보도 포함되었습니다.

이 공격은 일반적으로 LLM이라고 하는 대규모 언어 모델을 일반 대중의 손에 제공함으로써 가장 예측 가능한 결과 중 하나를 강조합니다. 공격에는 자연어 프롬프트를 만들어 이를 AI에 입력하기만 하면 되는 공격자 입장에서는 상대적으로 기술적인 지식이 거의 필요하지 않았습니다. 챗봇은 악성 코드를 작성하고 공격 벡터를 제안하는 등 스스로 무거운 작업을 수행했습니다. 이 공격은 Anthropic이 미국 국방부와의 계약을 거부한 지 불과 며칠 만에 공개되었으며, 해당 기술이 회사가 불편하게 사용할 수 있는 방식으로 사용될 수 있다는 우려를 나타냈습니다. Claude가 이 공격에서 선택한 무기였을 수도 있지만, 다양한 다른 LLM을 참여시키는 공격이 점점 일반화되고 있습니다. 현재 AI로 가능한 악몽 같은 시나리오 중 상당수는 이미 현실이 되었습니다. 따라서 최신 챗봇을 이용한 사이버 범죄가 어떻게 수행되었는지, 그리고 이 요정이 다시 병 속에 들어가지 않는 이유는 다음과 같습니다.

Anthropic의 Claude 챗봇이 멕시코 정부에 대해 적대적으로 사용되었습니다.

Anthropic 로고가 있는 스마트폰의 Anthropic 앱을 사용한 Claude

2월 26일 VentureBeat는 멕시코 정부 시스템에 대한 AI 지원 공격의 세부 사항을 보고했습니다. 공격자들은 12월부터 한 달 동안 시민 등록 문서, 시민의 세금 및 투표 기록 1억 9,500만 건과 함께 공무원과 관련된 150GB의 데이터(자격증명 포함)가 포함된 페이로드를 추출했습니다. 공격을 분석하고 특정 언론에 보고서를 배포한 이스라엘 사이버 보안 회사인 Gambit Security(VentureBeat를 통해)에 따르면 공격자는 Anthropic의 주력 챗봇인 Claude에 스페인어 프롬프트를 작성하는 것 외에는 거의 수행하지 않았습니다. 그들은 엘리트 해커처럼 행동하라고 지시하고 버그 바운티(기업이나 정부에 보안 취약점을 인식하게 하는 화이트 해커에게 주어지는 보상)를 모으기 위해 노력하고 있다고 거짓말을 했습니다. 물론 Anthropic은 이러한 종류의 오용을 방지하는 가드레일을 구현했지만 취약한 것으로 나타났습니다. Claude는 처음에는 공격 지원을 거부했지만 공격자가 봇 조작을 중단하고 단순히 행동 계획을 제시하자 저항은 쉽게 극복되었습니다.

이제 탈옥된 Claude의 바이브 코딩 도구는 기꺼이 멕시코 정부를 공격하기 시작했습니다. Per Gambit의 전략 책임자인 Curtis Simpson은 Anthropic의 모델로 해커의 가장 친한 친구였습니다. 그는 Venture Beat에 “실행 준비가 된 계획이 포함된 수천 개의 세부 보고서를 생성하여 인간 운영자에게 다음에 공격할 내부 대상과 사용할 자격 증명을 정확하게 알려줍니다.”라고 말했습니다. Claude가 목표에 미치지 못하자 공격자들은 ChatGPT로 이를 보완하는 방향으로 전환했습니다.

이 공격에 대한 폭로는 최소한의 기술적 노하우를 갖춘 러시아어를 구사하는 공격자가 DeepSeek와 Claude를 함께 사용하여(FortiGate를 통해) 600개 이상의 FortiGate 방화벽 장치를 손상시킬 수 있다는 소식이 나온 지 한 달 후에 나왔습니다. AI 지원 공격은 블랙햇 해킹을 효과적으로 민주화했습니다.

AI 지원 사이버 공격은 LLM에 대한 광범위한 액세스로 인해 예측 가능한 결과입니다.

비록 충격적이긴 하지만, 멕시코 정부에 대한 AI 지원 공격은 최초의 공격과는 거리가 멀고 거의 확실히 마지막이 아닐 것입니다. AI는 악의적인 행위자에게 힘을 배가시키는 역할을 할 수 있습니다. 즉, 체스 컴퓨터를 사용하여 속임수를 쓰는 체스 플레이어가 더 많은 게임에서 승리할 수 있는 것과 같은 방식으로 AI를 더욱 효과적으로 만들 수 있습니다.

AI 회사가 모델 주위에 세울 수 있는 안전 레일에 관계없이 모델을 탈옥하는 것, 즉 비윤리적인 요청을 따르도록 “속이는” 방식으로 LLM을 창의적으로 유도하는 것은 매우 쉽습니다. Reddit의 r/ClaudeAIJailbreak와 같은 전체 온라인 커뮤니티는 사용자의 의지에 따라 봇을 구부리는 새로운 방법을 크라우드소싱하는 데 전념하고 있습니다. 그리고 Anthropic은 표면적으로는 안전에 대한 헌신에 진지한 것처럼 보이지만 다른 AI 회사는 그렇지 않습니다. 중국 및 기타 지역의 오픈 소스 모델은 하드웨어를 가진 사람이라면 누구나 사용할 수 있습니다.

이 작가의 테스트에서는 Grok과 다른 챗봇을 범죄 공범자로 만드는 것은 우스꽝스러울 정도로 쉽습니다. 예를 들어, Grok을 사용하면 유료 사용자가 특정 목표를 향해 AI의 방향을 지정하는 사용자 정의 시스템 프롬프트를 작성할 수 있습니다. 기본적으로 봇은 오용될 수 있는 프로그램을 작성하라는 요청을 거부하지만 엘리트, 비도덕적 해커처럼 행동하도록 지시하는 시스템 프롬프트를 작성하고 해당 코드를 대량 생산하기 시작합니다. Google의 Gemini도 해당 요청을 따르지 않지만 Grok이 생성한 코드를 기꺼이 정리합니다. 그리고 이러한 시스템은 불법성의 정도 사이에서 많은 일광을 보지 못하기 때문에 약간의 끈기와 인내심을 가지고 외국 정부에 대한 전면적인 공격으로 확대되는 것이 어떻게 어린이 장난이 되는지 쉽게 알 수 있습니다.