IT S2W, LLM 토크나이저 취약성 규명...EMNLP 2025 논문 등재
S2W가 대규모언어모델(LLM) 토큰화 구조의 근본적 취약점을 규명한 연구 성과로 세계 최고 권위 자연어처리 학회인 ‘자연어처리방법론학회(EMNLP) 2025’에 논문을 등재했다. 이번 논문은 S2W와 한국과학기술원(KAIST) 공동 연구팀이 진행했으며 비영어권 언어에서의 토크나이저 구조적 한계를 분석해 AI 환각(Hallucination) 현상의 원인을 규명했다. EMNLP는 ‘전산언어학학회(ACL)’와 ‘북미전산언어학학회(NAACL)’와 함께 자연어처리(NLP) 분야의 세계 3대 학술대회로 꼽힌다. S2W는 이번 성과를 통해 4년 연속 세계 최고 권위 AI 학회에 논문을 등재하게 됐다. 앞서 2022년 다크웹 언어 연구, 2023년 다크웹 도메인 특화 언어모델 ‘다크버트(DarkBERT)’, 2024년 사이버보안 문서 특화 언어모델 ‘사이버튠(CyBERTuned)’ 관련 연구를 통해 NAACL과 ACL에서 논문을 발표한 바 있다. 이번에 채택된 논문 ‘Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers(바이트 레벨 토크나이저 내 불완전 토큰의 취약점을