13B 사이즈 이하 모델 1위 달성
|
8일 업스테이지에 따르면 매스GPT는 매스프레소, KT와 공동 개발한 언어모델이다. 130억(13B) 매개변수의 매스GPT는 벤치마크 테스트 평균에서 챗GPT 성능을 넘어섰고, MATH 벤치마크에서는 GPT-4까지 능가했다고 회사는 강조했다.
MATH 벤치마크 테스트에서 매스GPT는 1점 만점에 0.488점을 받아 130억 매개변수 이하 모델에서 역대 최고점을 기록했다. GPT-4는 0.425점, 챗GPT는 0.355점, 토라 13B는 0.481점, 토라 7B는 0.401점이었다. GSM8K에서는 매스GPT가 0.782점을 기록해 토라 13B(0.758점)를 제치고 1위를 차지했다.
1만2500개의 고난도 수학 경시 문제로 구성된 MATH 벤치마크와, 8500개의 초등학교 수학 문제로 산술 연산을 테스트하는 GSM8K 벤치마크 등 두 가지 척도에서 동시에 최고 성능을 달성한 경우는 최근 세계적으로도 유례를 찾아볼 수 없는 성과라고 업스테이지는 설명했다.
회사는 전략적 파트너십을 통한 KT의 인프라 지원 속에 AI 기반 학습 플랫폼 '콴다' 운영사 매스프레소의 수학 특화 노하우와 고품질의 학습 데이터, 자체 언어 모델 '솔라(SOLAR)'로 세계 1위의 거대언어모델(LLM)을 만든 업스테이지의 모델링 기술력이 합쳐진 결과물이라고 강조했다.
김성훈 업스테이지 대표는 "앞으로 업스테이지는 글로벌 1위 LLM 기술력을 바탕으로 다양한 영역에서 생성형 AI 혁신을 주도해 나갈 것"이라고 말했다.















