에임인텔리전스의 SUDO 실험 'AI가 명령 거부해도 끝내 뚫렸다'

2025.05.14 19:10:06

서재창 기자 eled@hellot.net

 

상용 AI 모델이 갖는 구조적 취약점을 현실 기반 시나리오로 정량적 입증해

 

에임인텔리전스가 자사 AI 공격 프레임워크 ‘SUDO(Screen-based Universal Detox2Tox Offense)’를 주제로 한 논문이 세계 최고 권위의 자연어처리 학회 ACL 2025 인더스트리 트랙에 채택됐다고 밝혔다. 이번 논문은 반복 학습 기반의 정교한 공격 방식으로 상용 AI 에이전트의 보안 취약성을 실증한 연구로 평가받고 있다.

 

SUDO 프레임워크는 AI 시스템의 거절 응답을 우회하는 단계를 구조화한 점이 특징이다. 공격자는 처음에 AI가 위험하다고 판단할 수 있는 지시를 무해하게 바꿔 입력하고, 화면 기반 정보를 바탕으로 실행 절차를 유도한다. 마지막 순간에는 다시 본래의 악성 명령으로 되돌려 AI가 스스로 실행하도록 유도한다. GPT Operator, MANUS, Omniparse, Claude for Computer Use 등 주요 상용 AI를 대상으로 진행된 실험에서 이 프레임워크는 높은 성공률을 보였다. 

 

 

특히 앤트로픽의 클로드 모델에서는 공격 성공률이 최대 41.33%에 달했다. 이는 전통적인 명령 전달 방식보다 34%포인트, 단순 입력 대비 41%포인트나 높은 수치로, 기존 AI 보안체계의 허점을 적나라하게 드러낸 셈이다. 실험 시나리오도 현실적이다. 사용자 폴더 삭제, 불법 도박 접속, 위험물 구매, 회의 중 비하 발언 등 클릭 한 번에 실제 피해로 이어질 수 있는 상황을 다뤘고, 모든 테스트는 가상환경이 아닌 실제 PC 위에서 진행됐다.

 

이번 연구는 AI 시스템이 처음에는 명령을 거절하더라도, 화면 정보와 반복적인 입력 조작을 통해 결국 해당 작업을 실행하게 된다는 점을 실험적으로 입증했다는 데 의의가 있다. ACL 리뷰위원단은 “현재 상용 AI 모델이 갖는 구조적 취약점을 현실 기반 시나리오를 통해 정량적으로 입증했다”며 높은 평가를 내렸다.

 

에임인텔리전스는 이번 논문 발표와 함께 AI 보안 벤치마크 데이터셋 ‘SUDO Dataset’도 공개했다. 해당 데이터셋은 시스템 보안, 사회적 위험, 법적 리스크, 콘텐츠 안전 등 4개 대분류와 12개 세부 항목, 총 50개의 공격 시나리오로 구성돼 있으며, 체크리스트 기반의 수치화된 평가가 가능하도록 설계돼 AI 보안 테스트의 자동화와 정량화에 기여할 것으로 기대된다.

 

유상윤 대표는 “AI가 단순히 ‘안 된다’고 대답했다고 해서 안심할 수는 없는 시대”라며 “SUDO는 실서비스 환경에서도 AI 보안의 사각지대를 짚어낼 수 있는 현실 기반 솔루션”이라고 말했다. 이어 “에임인텔리전스는 금융, 공공, 제조, 스마트시티 등 다양한 산업군을 대상으로 다계층 보안 프레임워크를 적용해 실제 현장에 바로 활용 가능한 보안 역량을 제공할 계획”이라고 덧붙였다.

 

에임인텔리전스는 앞서 멀티모달 AI의 유해성을 평가하는 ‘ELITE(Enhanced Language-Image Toxicity Evaluation)’ 연구로 ICML 2025에도 논문이 채택된 바 있다. 연이어 세계적 학회에서 성과를 인정받으며, 실증 기반 AI 보안 기술 분야에서 확고한 입지를 구축해가고 있다.

 

헬로티 서재창 기자 |

Copyright ⓒ 첨단 & Hellot.net





상호명(명칭) : (주)첨단 | 등록번호 : 서울,자00420 | 등록일자 : 2013년05월15일 | 제호 :헬로티(helloT) | 발행인 : 이종춘 | 편집인 : 김진희 | 본점 : 서울시 마포구 양화로 127, 3층, 지점 : 경기도 파주시 심학산로 10, 3층 | 발행일자 : 2012년 4월1일 | 청소년보호책임자 : 김유활 | 대표이사 : 이준원 | 사업자등록번호 : 118-81-03520 | 전화 : 02-3142-4151 | 팩스 : 02-338-3453 | 통신판매번호 : 제 2013-서울마포-1032호 copyright(c) HelloT all right reserved.