AI 에임인텔리전스의 SUDO 실험 'AI가 명령 거부해도 끝내 뚫렸다'
상용 AI 모델이 갖는 구조적 취약점을 현실 기반 시나리오로 정량적 입증해 에임인텔리전스가 자사 AI 공격 프레임워크 ‘SUDO(Screen-based Universal Detox2Tox Offense)’를 주제로 한 논문이 세계 최고 권위의 자연어처리 학회 ACL 2025 인더스트리 트랙에 채택됐다고 밝혔다. 이번 논문은 반복 학습 기반의 정교한 공격 방식으로 상용 AI 에이전트의 보안 취약성을 실증한 연구로 평가받고 있다. SUDO 프레임워크는 AI 시스템의 거절 응답을 우회하는 단계를 구조화한 점이 특징이다. 공격자는 처음에 AI가 위험하다고 판단할 수 있는 지시를 무해하게 바꿔 입력하고, 화면 기반 정보를 바탕으로 실행 절차를 유도한다. 마지막 순간에는 다시 본래의 악성 명령으로 되돌려 AI가 스스로 실행하도록 유도한다. GPT Operator, MANUS, Omniparse, Claude for Computer Use 등 주요 상용 AI를 대상으로 진행된 실험에서 이 프레임워크는 높은 성공률을 보였다. 특히 앤트로픽의 클로드 모델에서는 공격 성공률이 최대 41.33%에 달했다. 이는 전통적인 명령 전달 방식보다 34%포인트, 단순 입력 대비 41%포