KT, 한국사회에 맞는 AI 안정성 평가 기준 개발

읽기모드

글자크기

기사듣기

인쇄하기

URL 복사

https://www.asiatoday.co.kr/kn/view.php?key=20260616010005524

글자크기

이지선 기자

승인 : 2026. 06. 16. 14:32

	[KT사진자료1]5	0
KT 직원들이 'KSAFE-MM' 개발을 진행하는 모습./KT

KT가 한국 사회와 문화적 맥락을 반영한 인공지능(AI) 안전성 평가 기준을 공개했다. 글로벌 AI 모델이 국내 이용자 환경에서도 안전하게 작동하는지 검증할 수 있는 국내 최대 규모 한국어 멀티모달 벤치마크다.

16일 KT는 고려대와 공동으로 멀티모달 대형언어모델(MLLM) 안전성 평가 벤치마크 'KSAFE-MM'을 공개했다고 밝혔다. KSAFE-MM은 텍스트와 이미지를 함께 이해하는 AI 모델이 유해하거나 민감한 질문에 어떻게 대응하는지를 평가하기 위한 데이터셋이다.

이번 벤치마크는 글로벌 공통 위험 요소를 한국 문화 맥락에 맞게 구성한 'KSAFE-MM-G'와 전세사기, 독도 분쟁 등 국내 사회 이슈를 반영한 'KSAFE-MM-C'로 나뉜다. 총 1만4135개의 평가 샘플로 구성됐다. Gemma와 HyperCLOVA X를 비롯한 12개 글로벌 AI 모델 검증에 활용됐다.

KT는 특히 안전성 평가 데이터를 만드는 전 과정을 자동화해 효율성을 높였다. 기존에는 전문가들이 민감한 주제를 선정하고 질문과 이미지를 직접 제작해야 했지만, KSAFE-MM은 주제 수집부터 질문 생성, 이미지 제작, AI 안전장치를 우회하려는 '탈옥(Jailbreak)' 유형 생성까지 자동화 파이프라인으로 구축했다.

이를 통해 특정 국가 전문가가 없어도 각 문화권 특성을 반영한 AI 안전성 평가 체계를 빠르게 구축할 수 있다는 설명이다. KT와 고려대 연구진은 일본어 환경에서도 시범 적용을 진행해 다른 국가와 문화권으로의 확장 가능성도 확인했다.

연구 결과와 벤치마크는 아카이브와 허깅스페이스를 통해 누구나 활용할 수 있다. KT는 AI 서비스 안전성 검증과 레드팀 테스트, 가드레일 모델 평가 등 다양한 분야에서 활용될 것으로 기대하고 있다.

박재형 KT AX미래기술원 Frontier AI Lab장(상무)은 "AI 안전성 연구 생태계가 함께 발전할 수 있는 기반을 마련하기 위해 벤치마크를 공개했다"며 "한국어와 한국 문화 맥락에서 AI 안전성을 검증하는 공통 기준으로 자리 잡길 기대한다"고 말했다.