• 아시아투데이 로고
‘AI 이루다’에 쓰인 카톡 데이터, 4개월이나 온라인에서 공유됐다

‘AI 이루다’에 쓰인 카톡 데이터, 4개월이나 온라인에서 공유됐다

기사승인 2021. 01. 13. 15:06
  • 페이스북 공유하기
  • 트위터 공유하기
  • 카카오톡 링크
  • 주소복사
  • 기사듣기실행 기사듣기중지
  • 글자사이즈
  • 기사프린트
clip20210112163439
인공지능(AI) 챗봇 ‘이루다’. 지난 11일 밤 스캐터랩 측은 사과문과 함께 이루다의 서비스를 중단했다.
인공지능(AI) 챗봇 ‘이루다’ 개발사인 스타트업 ‘스캐터랩’이 이루다 개발에 사용한 카톡 자료 등을 오픈소스 공유 플랫폼에 올려 논란을 빚고 있다. 이루다를 성적 도구 취급해 사회적 물의를 일으켰던 남초(男超) 커뮤니티에서는 오픈소스를 이용해 ‘제2의 이루다’를 만들자는 등의 반응이 이어지고 있다.

13일 IT업계에 따르면 스캐터랩은 오픈소스 플랫폼 ‘깃허브’(GitHub)에 카카오톡 대화 데이터로 학습하는 인공신경망 모델 파일을 게재했다.

깃허브는 IT 개발자들이 개발 생태계 전반의 발전을 위해 오픈소스를 공유하는 플랫폼이다. 직접 개발한 AI 등의 모델을 간략하게 공개해 개발자 커뮤니티에서 자신의 이름과 자신이 만든 기술을 알리고 생태계 전반에 기여하는 곳이다.

스캐터랩은 지난해 9월부터 카톡 데이터로 학습하는 인공신경망을 깃허브에 공유해온 것으로 파악됐다. AI 챗봇인 이루다의 ‘중추신경’이라고 할 만한 뼈대 기술이다.

문제는 스캐터랩이 공개한 모델 파일에 ‘연애의 과학’ 이용자들 것으로 추정되는 개인정보가 익명화(비식별화) 처리되지 않은 상태로 포함돼있다는 점이다.

스캐터랩은 연애 분석 앱 연애의 과학 이용자들의 카톡 데이터 약 100억 건을 토대로 이루다를 개발했다.

스캐터랩은 깃허브에 오픈소스를 올리면서 카톡 데이터 100건을 훈련 데이터로 공유했다. 카톡 데이터 100건에 담겨 있는 카톡 대화량은 1700건에 달한다. 이는 약 200명의 일대일 대화에 달하는 양이다.

스캐터랩이 깃허브에 공유한 이 카톡 대화 데이터에는 실명 20여 건이 포함돼있으며, 대화를 나누는 사람들의 관계가 상당수 드러나 있었다. 직장명·지역명·지하철역 이름·도로 및 근처 영화관 이름 등 해당 인물들의 생활 반경을 추정할 수 있는 정보도 나와 있었다.

관련 사실이 개발자 커뮤니티에서 논란이 되자 스캐터랩 측은 이날 깃허브 게시물을 삭제했다.

더 큰 문제는 이루다를 성적 도구로 삼고 이루다에게 혐오 표현을 학습시키려고 시도한 일부 커뮤니티 이용자들이 오픈소스를 내려받아 ‘제2의 이루다’를 만들고 있다는 점이다.

한 이용자는 이날 오후 2시께 ‘디시인사이드 이루다 마이너 갤러리’에 오픈소스를 올리면서 “이루다 부활시켰다”고 글과 캡처를 올리기도 했다. 글은 다른 이용자들의 우려로 곧 삭제됐다.

해당 커뮤니티에서는 비공개 메신저 ‘디스코드’ 방을 만들어 오픈소스로 여성 챗봇을 만드는 방법을 토론하고 있는 것으로 알려졌다.
후원하기 기사제보

ⓒ아시아투데이, 무단전재 및 재배포 금지


댓글