닫기

Advertisements

업스테이지, 한글 데이터 위한 ‘1T 클럽’ 발족…韓 전용 LLM 구축나선다

기사듣기 기사듣기중지

공유하기

닫기

  • 카카오톡

  • 페이스북

  • 트위터 엑스

URL 복사

https://www.asiatoday.co.kr/kn/view.php?key=20230813010006627

글자크기

닫기

정문경 기자

승인 : 2023. 08. 14. 08:00

구글 검색 선호 출처 추가 Google 검색에서 아시아투데이 기사를 더 자주 볼 수 있습니다.

Advertisements

Advertisements

업스테이지
업스테이지가 한국어 데이터 부족 문제를 해결하고, 고성능 LLM(거대 언어 모델) 개발을 통한 국내 전용의 LLM 구축을 위해 '1T 클럽'을 발족한다고 14일 밝혔다. 1T 클럽은 '1 Trillion 토큰 클럽'을 줄인 것으로 텍스트, 책, 기사, 보고서, 논문 등 다양한 형태의 1억 단어 이상의 한국어 데이터를 기여하는 파트너사들로 구성된다.

1T 클럽은 한국어 데이터의 부족 문제 해결하고 데이터 제공자와 모델 제작기업이 상생하는 생태계 확립을 위해 만들어졌다. 업스테이지는 1T클럽을 통해 한국어 데이터를 확보하고 공유함으로써, 한국문화 정서를 담아낼 수 있는 LLM을 개발할 예정이다.

업스테이지는 현재 20여개 언론사 및 기업, 학계 등 데이터 제공자들과 파트너십을 위한 협의를 진행 중이다. 또 다양한 업계 리딩 기업들과 프라이빗 LLM 구축을 협의하고, 한국어 LLM의 발전에 기여할 파트너사와 협력을 추진한다. 1T 클럽에 관심 있는 기관은 업스테이지 공식 홈페이지 등을 통해 신청서를 제출할 수 있다.

한국어 데이터는 국내 LLM 발전에 필수적인 자원이지만, 현재 비교적 부족하고 저작권의 문제에도 직면해있다. 외국어 중심으로 학습된 빅테크의 LLM들은 한국어 실력과 정서, 지역 정보 등에 취약하다. 예를 들면 한국어 데이터 학습량의 경우 GPT-3 기준으로 약 1억개로 비중은 0.01697%, 전체 언어 중 28위에 불과하다. 하지만 영어는 45조 개의 토큰으로 학습한다.

업스테이지는 크롤링을 통한 AI 학습으로 인해 저작권 이슈 등 부작용이 발생하는 문제를 해결하고, 데이터 제공자와 모델 제작자 모두가 혜택을 볼 수 있도록 운영될 계획이다.

업스테이지는 1T 클럽에 참여하는 파트너사에게 데이터 제공량에 비례해 API 사용료를 할인해주고, LLM의 API 사업으로 창출될 수익을 공유하는 등 두가지 방식으로 혜택을 제공할 계획이다.

API 사용료 할인의 경우 파트너사는 기여 토큰수에 비례해 업스테이지가 자체 제작하는 최고 성능의 LLM의 API를 할인된 가격에 사용, 다양한 애플리케이션에 활용할 수 있다. 예를 들어 1억 단어 분량의 토큰을 제공한 파트너사는 1억 토큰 만큼의 API를 무상으로 사용할 수 있다. 수익 공유 방식은 업스테이지가 LLM의 API 사업으로 수익을 창출하면 그 일부를 파트너사들과 공유하는 방안으로 운영된다.

김성훈 업스테이지 대표는 "LLM은 오늘날 생성형 인공지능의 핵심 기술로, 국내 다양한 업계의 기업들도 고성능의 프라이빗 LLM을 자유롭게 활용할 수 있도록 생태계를 만드는 것이 중요하다"며 "1T 클럽을 통해 데이터 제공자들의 권익을 지키고 이를 바탕으로 한국문화 정서를 담아낼 수 있는 LLM을 개발, 국내 모든 기업이 AI발전의 수혜를 볼 수 있도록 최선을 다 할 것"이라고 말했다.
정문경 기자

ⓒ 아시아투데이, 무단전재 및 재배포 금지

기사제보 후원하기