MLOps (19) Knowledge Distillation을 이용한 딥러닝 모델 경량화 파이프라인 구축 본 포스팅은 곧 서비스화될 썸네일 생성 서비스에 사용된 Salient Object Detection 딥러닝 모델 경량화 파이프라인에 대해 설명한다. 여러 내용 및 저의 생각은 정답이 아닐 수 있으니, 비판적인 시각으로 바라봐주시고 틀린 내용 지적은 환영합니다. Online Prediction Online prediction은 ML 모델에 실시간 예측을 요청하는 프로세스이다. 실시간으로 이루어져야하는 서비스인 만큼, Batch Prediction 보다 inference time이 중요하다. 하지만, Inference time은 모델의 성능과 trade off가 있다. CNN을 예를 들면 다음과 같다. 위 표는 동일한 GPU, input size를 사용했을때의 비교를 담고있다. ResNet의 Layer가 깊.. Kubernetes에 EFK 설치 및 튜토리얼 이전 MLOps Toy 프로젝트를 진행할 때 자원 문제로 인해 EFK 및 Prometheus를 적용하지 못하였다. 이에 간단한 Flask의 log를 시각화하는 EFK를 적용해보고자 한다. EFK란? EFK stack은 Elasticsearch, Fluentd 그리고 Kibana 세개의 플랫폼 조합을 뜻하며, 클러스터 환경에서 로그를 수집, 검색 그리고 시각화를 가능하게 한다. 이번 포스팅에서는 각 플랫폼의 작동 원리나 자세한 기능까지 얘기하지 않고, 간단한 튜토리얼을 통해 쉽게 설치하는 내용을 담았다. 위의 그림을 보면 알 수 있듯이, 각 클러스터에 fluentd가 daemonset으로 log를 수집한다. elasticsearch는 fluentd가 수집한 로그를 저장하고, 요청에 따라 검색을 한다. 마지.. Deep Learning GPU 성능 최적화 전략 GPU를 이용하여 학습을 하다보면 GPU가 과연 일을 잘하고 있을까?에 대한 의문이 들때가 많을 것이다. 보통 nvidia-smi를 통해 확인한 GPU 메모리 사용량(Memory-Usage)이 어느정도 찼으면, 일 열심히 하겠구나 싶다. 하지만 사실 GPU의 작업 성능은 GPU-Util 로 확인 가능하다. GPU-Util 은 nvidia docs에서 확인할 수 있듯이, 지난 1에서 1/6초 동안의 GPU 활용률을 뜻한다. Useful nvidia-smi Queries | NVIDIA When adding additional parameters to a query, ensure that no spaces are added between the queries options. nvidia.custhelp.co.. 이전 1 2 3 4 ··· 7 다음