딥러닝 경량화 (1) Knowledge Distillation을 이용한 딥러닝 모델 경량화 파이프라인 구축 본 포스팅은 곧 서비스화될 썸네일 생성 서비스에 사용된 Salient Object Detection 딥러닝 모델 경량화 파이프라인에 대해 설명한다. 여러 내용 및 저의 생각은 정답이 아닐 수 있으니, 비판적인 시각으로 바라봐주시고 틀린 내용 지적은 환영합니다. Online Prediction Online prediction은 ML 모델에 실시간 예측을 요청하는 프로세스이다. 실시간으로 이루어져야하는 서비스인 만큼, Batch Prediction 보다 inference time이 중요하다. 하지만, Inference time은 모델의 성능과 trade off가 있다. CNN을 예를 들면 다음과 같다. 위 표는 동일한 GPU, input size를 사용했을때의 비교를 담고있다. ResNet의 Layer가 깊.. 이전 1 다음