생성형 AI는 이제 우리의 일상입니다. 우리는 AI에게 질문하고 아이디어를 얻고 코드를 짜고 그림을 그립니다. 하지만 이처럼 인간과 AI가 자연스럽게 상호작용하는 시대에도 때때로 AI가 만들어내는 콘텐츠는 안전하지 않을 수 있습니다. AI 응답을 완벽히 통제하는 것은 본질적으로 어렵기 때문입니다.
실제로 AI는 혐오적이거나 비윤리적인 발화를 생성하거나, 법적으로 민감할 수 있는 출력을 제공하기도 합니다. 여기에 악의적인 사용자가 프롬프트 공격(Prompt Attack)을 시도할 경우, AI 시스템의 취약성이 여실히 드러나기도 하죠. 이미 해외에서는 AI의 유해한 응답이 사회적 이슈로 떠오른 사례도 적지 않습니다.
적대적 프롬프트 공격: 모델의 기본 원칙을 위배하고 우회하도록 하는 프롬프트 공격
이러한 문제를 인식한 AI 프론티어 기업들은 모델 안전성 평가, 정렬(Alignment), AI 가드레일(AI Guardrail) 연동 등 다양한 접근으로 안전한 AI를 만들기 위한 노력을 기울이고 있습니다. 그중 AI 가드레일은 AI가 표준, 정책, 윤리적 가치를 위반하는 위험한 출력을 생성하지 않도록 사전에 방지하는 핵심 기술입니다. AI 가드레일은 위험한 사용자 프롬프트를 실시간으로 모니터링하거나, 모델이 생성한 응답이 정책 위반 가능성이 있는지를 판별하는 등 AI 서비스의 신뢰성과 책임성을 확보하는 역할을 합니다.
카카오 역시 AI 서비스 제공자이자 모델 개발 주체로서, 한국어 사용자 환경에 특화된 정교하고 분화된 리스크 분류 체계와 판단 모델이 필요하다고 생각했습니다. 그리고 한국에서 AI 기술을 사용하는 다양한 주체들이 보다 신뢰 가능한 AI 생태계를 경험할 수 있도록 돕고자 하는 바람도 있었습니다. 이러한 고민의 결과물이 바로 Kanana Safeguard 시리즈입니다.
이번 테크블로그에서는 Kanana Safeguard 시리즈의 4가지 차별점을 중심으로, 카카오가 어떻게 한국어 특화 AI 가드레일 모델을 설계하고 구현했는지 소개해드리고자 합니다.