에임인텔리전스가 BMW 그룹과 협력해 거대언어모델의 기업 정책 준수 여부를 평가하는 프레임워크 ‘COMPASS’를 공동 개발했다. 이번 프레임워크는 LLM이 기업별 맞춤형 정책을 실제 운영 환경에서 얼마나 충실히 따르는지를 체계적으로 검증하는 데 초점을 둔다.
COMPASS는 Company/Organization Policy Alignment Assessment의 약자로, 의료·금융·자동차 등 다양한 산업군에서 LLM 도입이 확대되는 상황에서 기업 내부 규정과 법적 제약을 AI가 정확히 준수하는지 평가하기 위해 설계됐다. 기존 표준 안전성 테스트를 통과한 모델이라도 실제 기업 환경의 복잡한 규칙을 적용하면 금지 조항을 제대로 따르지 못하는 취약점이 드러났다는 설명이다.
연구팀은 해석이 불분명한 조항이나 상충하는 규칙을 식별하고 정비하는 등 4단계 검증 과정을 통해 오작동 비율을 낮추는 방안을 제시했다. 자동차·금융·의료·교육 등 8개 핵심 산업을 기반으로 6000여 개 질의 데이터를 생성해 검증 신뢰도를 확보했다. 또한 기업이 자사 정책에 맞춰 직접 AI 시스템을 점검할 수 있도록 COMPASS 프레임워크와 데이터셋을 GitHub와 Hugging Face에 공개했다.
이번 프로젝트에는 서울대학교, 연세대학교, 포항공과대학교 연구진이 참여했으며 연구 결과는 논문 사전공개 사이트인 arXiv에 게재됐다.
유상윤 에임인텔리전스 대표는 “일반적인 관점에만 초점을 맞추는 AI 안전 테스트와 달리, COMPASS는 실무적 관점에서 모든 규칙이 제대로 지켜지도록 신뢰성을 높인 것이 특징”이라며 “앞으로도 기업과 공공기관이 AI를 보다 안심하고 활용할 수 있는 현실적인 AI 보안 적용 방안을 선보일 것”이라고 밝혔다.
헬로티 구서경 기자 |















































