|
올해로 23회를 맞은 인터스피치는 18일부터 오는 22일까지 인천 송도컨벤시아에서 진행되며, 카카오엔터프라이즈를 포함해 다양한 AI 기업이 모여 최신의 연구 성과를 공유하게 된다.
카카오엔터프라이즈는 이번 인터스피치에 플래티넘 스폰서로 참여했으며, 총 4편의 논문을 통해 사람 처럼 말하고 이해하는 AI를 선보였다. 이중 한 편은 인터스피치 등재 논문 중에서도 높은 수준을 인정받아 구두 발표로 공개됐다.
이번 연구는 △사람처럼 말하는 AI △긴 음성도 잘 이해하는 AI △인간의 복잡한 감정을 이해하는 AI 등 실제 서비스화할 수 있는 기술 △영어 발음이 원어민과 얼마나 가까운지 알려주는 AI까지 사람들이 쉽게 접하고 이해할 수 있는 기술을 선보였다. 이러한 기술이 사람처럼 자연스러운 일상 대화를 나눌 수 있는 AI 챗봇, 인간 상담원의 업무를 효율화할 수 있는 AI 컨택 센터 등 많은 사람들의 삶을 편리하게 할 수 있는 서비스로 이어질 것으로 예상된다.
임단ㆍ정성희ㆍ김의성 연구원은 사람처럼 말하는 AI에 대한 연구를 발표했다. JET에서는 실제 사람과 구별하기 어려운 수준의 자연스러운 고품질 음성 개발 방법론을 제안한다. 임단 연구원은 19일 구두 발표를 통해 'E2E-TTS' 기법으로 기존 '뉴럴 TTS' 개발 과정을 단순화하는 방법을 발표했다. 기존 뉴럴 방식이 음성 처리를 위해 2개의 모델을 따로 학습해야 했다면 새로운 기법을 활용하면 두 모델을 한번에 학습할 수 있게 되어 학습 과정을 단축하고 더욱 고품질의 음성을 만들어 낼 수 있다. 이 방법론은 카카오엔터프라이즈의 AI 컨택센터인 카카오 i 커넥트 센터, 헤이카카오 등 카카오엔터프라이즈 딥러닝 TTS가 쓰이는 모든 서비스에 적용되어 있다.
또한 이지혜 연구 음성 길이가 길어졌을 때 많이 발생하는 음성인식 오류인 탈락 오류를 개선하기 위한 방법론을 제안한다. 기존 음성 인식기가 학습한 환경과 다른 특성의 음성 입력에 대해서도 성능 저하 없이 안정적인 인식 성능을 내게 하는 것은 음성 인식 상용화에 있어서 매우 중요한데 카카오엔터프라이즈는 새로운 방법론을 통해 기존 대비 27.6% 성능 향상을 확인했다.
이주성 연구원은 인간의 복잡한 감정을 이해하는 새로운 방법론으로 그레이스케일 레이블을 만들어 다양한 감정 분포를 학습할 수 있도록 제안했다. 이 방법론은 카카오엔터프라이즈의 서비스형 AI인 'AIaaS'에 적용되어 대화 맥락을 전반적으로 이해하고 발화에 담긴 의미를 분석하거나 자연스러운 답변을 제시하는 기술을 제공하고 있다.
마지막으로 카카오엔터프라이즈는 영어 발음이 원어민과 얼마나 가까운 지를 알려주는 AI를 선보였다. 김의성ㆍ전재진ㆍ서혜지ㆍ김훈 연구원은 비원어민 학습자들의 영어 발음을 점수화해 평가하는 방법을 다룬 논문을 발표했다. 딥러닝 자기 지도 학습으로 적은 데이터에서도 사전학습, 미세조정을 거쳐 영어발음을 평가하는 새로운 알고리즘을 제안한다. 기존 학습 방법 대비 30% 성능 향상을 보인 이 방법론은 영어 교육 전문회사인 잉글리시헌트와 공동 개발한 모바일 영어 학습 애플리케이션 '비바부 잉글리시'에도 도입되어 AI 집중도 분석 및 발음평가 기능을 구현하는 것은 물론 개인화된 AI 학습 리포트를 제공하는 데 쓰이고 있다.
최동진 카카오엔터프라이즈 최고인공지능책임자 겸 부사장은 "카카오엔터프라이즈는 어렵고 접근하기 어려운 기술이 아닌 사용자가 직접 활용하고 체감할 수 있는 실용적인 AI에 집중하고 있다. 인터스피치에 모인 전 세계 AI 강자들도 카카오엔터프라이즈의 이러한 기조에 주목하고 공감할 것으로 기대한다"며, "카카오엔터프라이즈는 사용자에게 더 나은 삶을 선사할 수 있는 기술을 제공하기 위해 역량있는 크루들의 연구를 적극 지원하고 AI 챗봇, AI 컨택센터 등 서비스 고도화에 많은 노력과 투자를 이어 나갈 계획"이라고 밝혔다.










