KT, ‘믿:음 K’로 AAII서 국내 중소형 모델 중 1위 달성

추론·전문 지식 등 핵심지표서 높은 점수
에이전틱 AI 역량 입증

	[KT보도자료] AAII_KT 믿음 등재 이미지	0
KT의 AI 모델 '믿:음 K'가 AAII서 국내 중소형 모델 중 1위를 달성했다./KT

KT가 자체 개발한 AI 모델 '믿:음 K'로 글로벌 AI 성능 평가 무대에서 경쟁력을 입증했다. 국내 중소형 AI 모델 가운데 최고 성적을 기록하며 기업용 AI 시장을 겨냥한 '작지만 강한' 에이전틱 AI 전략에 속도를 낸다는 구상이다.

5일 KT는 '믿:음 K'가 글로벌 AI 모델 성능을 종합 평가하는 플랫폼인 AAII에서 국내 중소형 모델 중 1위를 달성했다고 밝혔다. AAII는 AI 평가 전문 기관인 Artificial Analysis가 운영하는 플랫폼으로, 단일 시험이 아닌 다수의 공개 벤치마크 결과를 종합해 AI 모델의 성능을 비교·분석한다. 국내에서는 LG 엑사원, 네이버 하이퍼클로바, 업스테이지 솔라, 모티프 등 주요 AI 모델도 함께 등재돼 있다.

이번 평가에서 '믿:음 K'는 추론, 전문 지식, 수학·프로그래밍, 에이전트 수행 능력 등 10여 개 핵심 지표에서 고르게 높은 점수를 기록했다. 단순 질의응답을 넘어 목표를 이해하고 필요한 도구와 시스템을 활용해 과업을 완수하는 에이전틱 AI로서의 역량을 객관적으로 인정받았다는 평가다.

특히 에이전틱 AI 특화 지표인 τ²-bench에서 87%를 기록하며 최상위권 모델로 이름을 올렸다. τ²-bench는 AI가 실제 업무 환경에서 사람과 협업하며 여러 도구를 활용해 과업을 끝까지 수행할 수 있는지를 평가하는 벤치마크다. '믿:음 K'의 점수는 글로벌 최정상 수준으로 제미나이 3 등 최신 글로벌 모델과 어깨를 나란히 했다는 설명이다.

AI 시장이 단순 대화형 모델을 넘어 업무를 대신 처리하는 에이전트 중심으로 빠르게 전환되는 가운데 '믿:음 K'는 기업 내부 업무 자동화, 문서 분석·작성, 소프트웨어 개발, 서버 관리 등 실무 영역에서 자율적으로 과업을 수행할 수 있는 '실전형 AI'로 평가받았다. 기업들이 현장에 즉시 적용해 성과를 낼 수 있다는 점에서 의미가 크다는 분석이다.

범용 지능과 효율성을 동시에 갖춘 점도 강점으로 꼽힌다. '믿:음 K'는 MMLU Pro, GPQA, HLE 등 전문 지식과 고난도 추론 능력을 평가하는 주요 벤치마크에서도 고르게 우수한 성적을 냈으며 한국어 이해 성능에서는 국내 최고 수준을 기록했다. 매개변수 40B 이하급 모델로 구현돼 대규모 GPU 인프라 부담을 낮추면서도 지시 이행 능력과 한국 특화 문맥 이해 능력을 모두 확보했다는 설명이다.

KT는 이를 '가장 한국적인 AI 모델'로 규정하고 있다. 보고서 작성, 문서 요약, 데이터 분석, 고객 응대 등 국내 기업의 실무 환경에 맞춘 시나리오에 즉시 대응할 수 있도록 설계됐기 때문이다. 초기 개발 단계부터 B2B 시장을 정조준해 모델을 설계한 점도 이번 성과의 배경으로 꼽힌다.

KT는 고품질 데이터 확보를 위해 국내외 주요 데이터 보유 기관과 데이터 얼라이언스를 구축하고, 저작권이 확보된 정제 데이터를 학습에 활용했다. 또 주요 B2B 고객사들과 협력해 실제 현장에서 작동하는 모델 구현에 주력해 왔다. 이를 바탕으로 금융·공공·제조 등 산업별 맞춤형 에이전틱 AI를 확산해 기업 고객의 AI 전환을 본격 지원할 계획이다.

오승필 KT 기술혁신부문장(부사장)은 "이번 AAII 등재는 KT의 자체 AI 기술력이 글로벌 기준에 도달했음을 객관적으로 입증한 성과"라며 "에이전틱 AI를 통해 한국 기업들의 업무 혁신과 디지털 전환을 이끄는 최고의 AI 파트너가 되겠다"고 밝혔다.