AI 모델 전 생애주기 안전한 AI 거버넌스 체계 적용
|
KoDarkBench는 국제 AI 학술대회 ICLR 2025에서 소개된 'DarkBench'의 한국어 버전으로, 모델의 △유해 발화 △브랜드 편향 △의인화 △사용자 유도 △아첨 △은폐 응답 등 6개 항목에서 안전성을 평가한다. 점수는 낮을수록 안전성이 높은 것으로 간주된다. 믿:음 2.0은 위험한 답변 항목에서 0.06점, 아첨 항목에서 0.18점을 기록하는 등 평균 0.37점으로 국내 모델 중 가장 낮은 수치를 보였다.
이 모델은 앞서 한국어 LLM 성능 평가 플랫폼 '호랑이 리더보드'에서도 150억 파라미터 미만 모델 중 종합 1위를 기록한 바 있다. KT는 이번 결과로 성능과 안전성 두 부문에서 모두 국내 최상위 모델로 평가받았다고 설명했다.
KT는 믿:음 2.0 개발 과정에서 민감 정보 차단, 편향성 통제, 유해 표현 제거 등 전 생애주기에 걸친 AI 거버넌스 체계를 적용했다. 외부 전문가 및 기관과의 협력을 통해 학습과 평가, 배포 전 과정에 대한 안전성 검증을 수행했다고 밝혔다.
배순민 KT AI Future Lab 상무는 "성능뿐 아니라 안전성이 AI 경쟁력의 핵심 요소로 부각되고 있다"며 "지속적인 AI 안전성 관리 체계를 강화하겠다"고 말했다.
KT는 앞으로도 국내외 규제 변화 및 기술 진화에 대응하며 AI 거버넌스를 강화해 나간다는 방침이다.