연구자, 스타트업 등 자유롭게 서비스 적용
'지시이행' 성능서 유사 모델대비 128%
|
24일 카카오는 AI 허브 플랫폼인 허깅페이스(Hugging Face)를 통해 멀티모달 언어모델 'Kanana-1.5-v-3b'와 MoE 언어모델 'Kanana-1.5-15.7b-a3b'를 오픈소스로 배포했다고 밝혔다. 이는 지난 5월 공개한 Kanana 1.5 언어모델 4종에 이어 약 두 달 만의 후속 조치다.
특히 이번 공개 모델은 아파치 2.0 라이선스를 적용해 상업적 활용이 가능하며, 연구자나 스타트업 등이 자유롭게 실험하고 서비스에 적용할 수 있다.
이번에 공개된 'Kanana-1.5-v-3b'는 텍스트와 이미지를 동시에 처리할 수 있는 경량 멀티모달 언어모델이다. 지난 5월 공개된 Kanana 1.5 모델을 기반으로, 모델 설계부터 학습까지 모든 과정을 카카오 기술로 구현한 '프롬 스크래치(From Scratch)' 방식으로 개발됐다.
모델은 사용자 질문 의도를 이해하고 자연어로 응답하는 '지시 이행' 성능이 높으며, 한국어와 영어 이미지 이해 능력도 뛰어나다. 국내외 유사 크기 공개 모델과의 성능 비교 결과, 한국어 벤치마크에서는 최고 성능을 기록했으며, 영어 벤치마크에서도 글로벌 모델들과 유사한 수준을 보였다. 특히 지시 이행 능력 항목에서는 국내 유사 모델 대비 128% 수준의 성능을 기록했다.
카카오는 해당 모델에 인간 선호 학습과 지식 증류기법을 적용해 성능을 끌어올렸다. 이는 고성능 대형 모델의 예측 확률 분포를 학습해 상대적으로 작은 모델의 정밀도와 일반화 능력을 높이는 기술이다.
'Kanana-1.5-v-3b'는 이미지·문서 인식, 도표 해석, 수학 문제 풀이, 문화유산 분석 등 다양한 분야에서 활용 가능하다. 예를 들어, 장소 사진과 함께 "이곳이 어디인지 설명해줘"라고 입력하면 "서울 청계천입니다"와 같은 답변을 제공하는 식이다. 이미지 검색이나 콘텐츠 분류처럼 실시간성과 효율성이 요구되는 분야에서도 활용도가 높을 것으로 예상된다.
같은 날 공개된 'Kanana-1.5-15.7b-a3b'는 국내 최초로 오픈소스로 배포된 MoE 구조의 언어모델이다. MoE는 입력에 따라 전체가 아닌 일부 전문가 모듈만 작동하도록 설계돼, 연산 자원을 줄이면서도 성능은 유지할 수 있는 방식이다. 추론 시 일부 파라미터만 작동하는 구조적 특성 덕분에 '저비용·고효율 AI' 서비스 구현이 가능하다.
카카오는 기존 3B 모델 'Kanana-Nano-1.5-3B'를 업사이클링 방식으로 확장해 15.7B 규모의 MoE 모델을 완성했다. 추론 과정에서 실제로 사용되는 파라미터는 3B 수준이지만, 성능은 8B 모델에 필적하거나 이를 상회하는 수준을 기록했다. 학습 비용과 시간 측면에서도 높은 효율성을 보여준다.
카카오는 앞으로도 고성능 모델을 지속적으로 공개해 국내 AI 생태계의 자립성과 기술 경쟁력 강화에 기여한다는 계획이다.