카카오가 국내 최초로 텍스트, 음성, 이미지 등 다양한 정보를 동시에 이해하고 처리할 수 있는 통합 멀티모달 언어모델 ‘카나나(Kanana)-o’를 공개했다. 1일 자사 테크 블로그를 통해 성능과 개발 후기까지 상세히 공개하며 기술적 진화를 강조했다. 카나나-o는 기존의 텍스트 기반 언어모델을 넘어, 음성과 이미지를 동시에 입력받아 의미를 분석하고 이에 맞는 텍스트나 음성으로 응답을 생성할 수 있는 모델이다. 카카오는 이미지에 특화된 모델 ‘카나나-v’와 오디오 처리에 특화된 ‘카나나-a’를 병합하는 방식으로 멀티모달 통합 모델을 단기간 내 구축했다. 특히 이번 모델은 한국어에 특화된 데이터셋을 기반으로 지역 방언, 억양, 어미 변화를 정밀하게 반영했다. 이를 통해 제주도, 경상도 등 지역 방언을 표준어로 자연스럽게 변환하는 능력을 갖췄으며, 해당 방언으로도 정확한 감정 인식이 가능하다. 카카오는 카나나-o가 한국어 및 영어 벤치마크에서 글로벌 최고 수준의 성능을 기록했으며, 특히 한국어 기반 벤치마크에서는 높은 우위를 보였다고 설명했다. 감정 인식 부문에서는 양 언어 모두에서 높은 정확도를 보이며, 단순 응답을 넘어 감정 기반 소통이 가능한 AI의 가능성을
파라미터 다른 두 모델 출시돼 프로젝트 비용과 난이도에 따라 자유롭게 선택 올거나이즈가 19일 금융에 특화된 AI 언어모델인 '알리 파이낸스 LLM(Alli Finance LLM)'을 출시했다고 밝혔다. 알리 파이낸스 LLM(대형언어모델)은 오픈소스 LLM 중 가장 성능이 뛰어나다고 알려진 메타의 라마2를 기반으로 경량화한 금융 특화 sLLM(소형언어모델)이다. sLLM은 인간 두뇌의 시냅스에 해당하는 파라미터 규모가 LLM보다 작지만, 훈련을 위한 데이터·시간· 비용 등이 상대적으로 적게 들어 특정 용도의 AI 서비스를 개발하는데 적합하다. 알리 파이낸스 LLM은 파라미터가 130억 개인 13B와 700억 개인 70B의 두 모델이 함께 출시돼 프로젝트 비용과 난이도에 따라 모델 크기를 자유롭게 선택할 수 있다. 금융 도메인에 특화된 데이터로 학습돼 금융 용어를 이해한다는 강점이 있다. 일례로 'LTV'라는 단어를 챗GPT에 물어볼 경우, 고객의 생애 기간 동안 기여하는 평균적인 가치를 나타내는 마케팅 지표인 'Lifetime Value'의 약어라고 대답한다. 하지만 알리 파이낸스 LLM에 질문하면 금융 약관 등에 자주 나오는 'Loan to Value(담보