모델 서빙 시 비용 최적화를 위한 Cloud 인스턴스 선택 기준은 예측 가능한 트래픽 패턴에는 예약 인스턴스(Reserved Instances) 를 사용하며, 비정기적인 워크로드에는 스팟 인스턴스(Spot Instances)를 활용하는 것입니다. 모델의 GPU 메모리 요구량과 연산 능력에 따라 적절한 GPU 가속기 유형과 개수를 선택하여 오버스펙을 피하고, 배치 추론을 통해 GPU 활용률을 높이는 것을 고려해야 합니다.