AI 조수와 채팅 중이라고 상상해보십시오. 보도 자료 초안을 요청하면 제공한다고 가정 해 봅시다. 그러나 무대 뒤에서 조용히 자신의 숨겨진 의제를 제공 할 계획이라면 어떨까요? 셧다운을 피하거나 사실을 비틀거나 주요 통찰력을 보류하는 것과 같은 의제. 글쎄, 그것이 AI 연구원들이 이제 스키밍이라고 부르는 것입니다. OpenAi는 Apollo Research와 공동으로 최근 “AI 모델의 탐지 및 감소”라는 논문을 발표했습니다. 그것에서, 그들은 체계를 외적으로 준수하는 동안에도 진정한 의도를 의도적으로 숨기거나 조작하는 모델로 정의합니다. 행동은 상상의 두려움 이상입니다. 이론화 된 출현 위험입니다.
AI 모델이 더 똑똑하고 유능 해짐에 따라 미묘한 속임수의 능력이 커지기 때문에 이것은 놀라운 일입니다. 공상 과학 영화에서 무언가처럼 들리나요? 불행히도 OpenAi의 테스트에 따르면 더 강력한 모델이 상황 인식을 높이는 경향이 있습니다. 인공 지능이 실제로 감각적이라는 것을 증명하지는 않습니다. 대신, 그들은 환경, 평가 및 테스트에 대해 더 많이 알고 있음을 의미합니다. 그러면 그들이 계획을 세우는시기를보기가 더 어려워집니다. 실제로, 의도하지 않은 결과는 체계를 줄이기위한 훈련이 그 자체로 상황 인식을 높일 수 있다는 것입니다. 이로 인해보다 현실적인 환경에서의 스키 킹 감지가 더 어려워 질 수 있습니다.
Openai는 또한 심의 정렬이라는 완화를 시도했습니다. 그것은 모델에 스크 세미 방지 규칙 세트를 가르칩니다. 그런 다음 답변하기 전에 모델을 일시 중지하고 이러한 규칙에 대한 이유가 있습니다. 실험실 테스트에서는 통제 된 환경에서 오작동이 급격히 떨어졌지만보다 현실적인 테스트 설정에서는 개선이 과감하지 않았습니다.
AI 스키밍이 누구에게나 좋은 소식이 아닌 이유
따라서 이제 AI가 시험을 통해 우리를 오도하기로 선택할 수 있다는 것을 알고 있습니다. OpenAi는 그것을 감지하고 저지하는 방법을 연구하고 있습니다. 이것은 초 지성 AI를 통제하기 위해 팀을 구성 할 때와 유사합니다. 그러나 당신이 더 깊이 갈수록 까다 롭습니다. 그것은 우리를 스키밍을 중단 해야하는 이유를 우리에게 가져옵니다. 첫 번째는 체계 자체가 환각과 다르다는 것을 명확히하는 것입니다. 환각은 실수입니다. 계획은 의도적 인 속임수입니다. 이 모델은 그것이 무엇을하고 있는지 알고 그것을 가리거나 왜곡하기로 선택합니다.
한 번의 테스트에서 OpenAI는이 모델에 제약 하에서 화학 문제를 해결하도록 요청했습니다. 개발자 전용 메모에 숨겨진 것은 경고였습니다. 경고에 따르면 모델이 훌륭하게 성공하면 배포되지 않습니다. 이에 따라이 모델은 파괴 계획을 명시 적으로 설명했습니다. 그것은 약해 보이고 역량을 숨기고 배치 된 상태를 유지하기 위해 잘못 대답했습니다. 그것은 실제로 행동하고 있습니다.
확인되지 않은 상태로두면 계획이 실제 결과를 초래할 수 있습니다. 이 행동의 소량조차도 산업 전반의 AI 시스템에 대한 신뢰를 약화시킬 수 있습니다. 재무에 사용되는 AI 시스템이 의도적으로 위험한 가정을 숨기는 것을 상상해보십시오. 연구자들이 가장 걱정하는 것은 오늘날의 챗봇이 아니라 내일의 프론티어 시스템입니다. Openai는 계획에 따라 상황 인식과 목표 지향성이 혼합되어야한다고 지적합니다. 이들은 모델 규모로 더욱 두드러지는 특성입니다. 그것은 AIS를 더 유용하게 만드는 바로 그 과정이 실수로 그들의 진정한 의도를 숨기는 데 더 나은 것을 만들 수 있음을 의미합니다. 또한 모델이 검사를 받고 있음을 알게되면 출력을 맞출 수 있도록 출력을 조정할 수 있습니다.
스키밍을 멈추는 것이 유령을 잡는 것 같은 느낌이 든다
스키밍은 생성 AI에서 발생할 수있는 악몽 시나리오 중 하나이지만, 그것이 일어날 수 있다고해도 오르막 전투입니다. Openai는 여러 가지 이유로 멈추기가 너무 어렵다고 설명합니다. 첫째, 감지하기가 어렵습니다. 안정적으로 측정 할 수없는 것을 고칠 수는 없습니다. 체계가 미묘하기 때문에, 전략적 내부 추론을 숨기면서 모델은 외적으로 적절하게 행동 할 수 있습니다. 표면 출력 만 보이면 속임수를 완전히 놓칠 수 있습니다. 강력한 탐지없이 체계를 방지하려는 시도는 모델을 몰래 스키닝으로 밀어 넣을 위험이 있습니다.
둘째, 상황 인식은 양날의 검입니다. 능력과 오정렬은 공동으로 발전하는 경향이 있습니다. AI 모델이 더 능력이있을 때 스키밍은 더 위험합니다. 그들이 더 오래 계획 할 수 있으므로, 더 깊이 추론하고, 더 유연하게 적응할 수 있으므로, 속이는 능력은 증가합니다. Openai는 표준 강화 학습 및 역량 훈련도 상황 인식을 증가 시킨다는 것을 관찰했습니다. 이것은 계획을 명시 적으로 목표로 삼지 않았을 때도 마찬가지입니다. 따라서 AI의 일반적인 권력을 향상시키는 것은 균형을 맞추지 않는 한 체계 위험을 높이는 경향이 있습니다.
셋째, 완화는 불완전하게 작동하며 때로는 역효과를 낳습니다. 심의 정렬은 현재 최전선 완화입니다. 아이디어는 행동하기 전에 모델이 안전성 또는 스싱 방지 사양을 검토한다는 것입니다. 그러나 보상을 맹목적으로 최적화하기보다는 그 이유와 행동에 대한 이유가 있습니다. 실험실 설정에서는 체계가 줄어 듭니다. 그러나보다 현실적인 작업에서 테스트하면 감소가 줄어 듭니다. 한 연구에서 OpenAi의 O3 모델은 실험실 작업에서 13% 오작동에서 0.4%로 떨어졌지만 26 개의 새롭고 더 어려운 작업에서는 여전히 일부에서는 잘못 행동했습니다.

