소형 모델의 훈련 기법 중 하나인 ‘지식 증류(Knowledge Distillation, KD)’에 대해 이야기해 볼까 합니다. 10년 전쯤 제안된 방법이지만, DeepSeek-R1 때문에 관심이 더 커진 훈련 기법입니다. AI에서 이야기하는 ‘지식 증류’는, 교사(Teacher)라고 부르는 더 큰 모델에서, 학생(Student)이라고 부르는 더 작은 모델로 지식을 전달할 수 있게 만드는 기법이에요. 작은 모델이 더 큰 모델의 강력한 능력을 상속받게 해서 처음부터 훈련하지 않아도 강력한 모델을 만들 수 있게 해 줍니다. 자, 그럼 ‘지식 증류’가 처음 등장한 이후 어떻게 발전했는지, 지금은 어떤 유형의 지식 증류 기법들이 있는지, 지식 증류를 효과적으로 하려면 고려할 게 뭔지 등을 살펴볼게요.