카카오, 한국어·문화 이해도 높은 멀티모달 언어모델 2종 공개

Kanana-o·Kanana-v-embedding 성능 공개
억양·감정 등도 반영
자체 개발 AI 기술 완성도 입증

	25.12.12 [사진자료1] Kanana-o와 글로벌 경쟁모델 벤치마크 성능비교	0
Kanana-o와 글로벌 경쟁모델 벤치마크 성능비교./카카오

카카오가 한국어와 한국 문화 이해에 최적화를 이룬 고도화된 멀티모달 AI 모델의 연구 성과를 공개했다.

12일 카카오는 공식 테크블로그를 통해 통합 멀티모달 언어모델 'Kanana-o'와 멀티모달 임베딩(Embedding) 모델 'Kanana-v-embedding'의 개발 과정과 성능을 공개하며 자체 개발 AI 모델의 기술적 완성도를 다시 한 번 입증했다.

먼저 'Kanana-o'는 텍스트·음성·이미지를 동시에 이해하고 실시간으로 답변하는 통합형 모델로, 한국어 맥락 이해와 감정 표현에서 글로벌 모델 대비 월등한 성능을 보유한 것이 특징이다. 카카오는 기존 멀티모달 모델의 한계였던 음성 지시이행 능력을 개선하기 위해 모델을 고도화했으며, 사용자의 숨은 의도 파악, 복합 요구 분석 등 난도 높은 과업 수행 능력을 강화했다.

또한 자체 구축한 데이터셋을 활용해 요약·번역·감정 분석·오류 수정 등 다수의 언어 과업을 자연스럽게 수행하도록 학습했다. 고품질 음성 데이터와 DPO(직접 선호 최적화) 기술을 적용해 억양·감정·호흡을 정교하게 반영했으며, 멀티턴 대화도 끊김 없이 이어질 수 있도록 '팟캐스트형' 데이터도 새로 구축했다. 벤치마크 결과, 영어 음성에서는 GPT-4o와 유사한 수준을 기록했고 한국어 음성 인식·합성·감정 표현에서는 높은 성능을 나타냈다.

	25.12.12 [사진자료2] Kanana-v-embedding 벤치마크 성능 비교	0
Kanana-v-embedding 벤치마크 성능 비교./카카오

이번에 함께 공개된 'Kanana-v-embedding'은 이미지 기반 검색에 특화한 한국형 멀티모달 임베딩 모델이다. 텍스트·이미지를 동시에 이해해 이미지 검색, 이미지와 연관된 문서 검색 등을 지원한다. '경복궁', '붕어빵' 같은 한국 문화 고유 표현뿐 아니라 '하멜튼 치즈'처럼 오타가 포함된 검색어도 문맥을 파악해 정확한 이미지를 찾아내는 것이 특징이다. 복합 조건이 포함된 검색에서도 높은 변별력을 보였으며 현재 카카오 내부 광고 소재 심사 시스템에 적용되고 있다. 향후 비디오·음성 영역으로 확장될 예정이다.

카카오는 온 디바이스 환경에서 동작하는 경량 멀티모달 모델 연구도 병행하고 있으며, MoE 구조 기반 고효율 모델 **'Kanana-2'**를 연내 개발할 계획이다. 이를 통해 사람처럼 자연스럽게 상호작용하는 AI 기술 구현에 속도를 낸다는 목표다.

김병학 카카오 카나나 성과리더는 "카카오의 자체 AI 모델 카나나는 단순한 정보 나열 수준을 넘어, 사용자의 감정을 이해하며 친숙하고 자연스럽게 대화하는 AI가 될 수 있도록 한국적 맥락의 이해와 표현력을 높여가고자 한다"며 "실제 서비스 환경을 통해 사용자들의 일상 속 AI 기술 경험을 만들어 나가고, 사람처럼 상호작용 할 수 있는 AI의 구현에 주력해 갈 것"이라고 밝혔다.