AI 경량화: 더 빠르고 저렴한 AI 서비스 https://www.youtube.com/watch?v=NVNCPGWe5Ss Naver Biz CIC / AI Serving Dev Inference Latency 서버 부하 전력소모 효율 ... 모델의 아키텍처가 성능을 좌우하는데, 서비스 상황에 맞춰 아키텍처 자체를 실험적으로 바꾸며 최적값을 찾기 위한 작업은 어렵다. 아키텍처를 고정한 채, 효율성을 더 높이기 위한 삽질기. 실험에 사용한 조건 중 num_thread 고정 dynamic allocation에서 발생하는 속도차이 무시하기 위함. 같은 모델이라도 다소 느린 속도. 경량화 이론은 매우 어렵지만, 서비스 적용을 위한 코드 수정은 (이론에 비하면) 쉬운 편이다. AI 모델 트렌드는 '더 큰 모델, ..