하나의 플랫폼에서 다양한 LLM을 운영할 경우, 버전 관리 및 A/B 테스트는 모델 서빙 계층에서 라우팅 전략을 활용하는 것이 효율적입니다. 각 LLM 버전을 별도의 엔드포인트로 배포하고, API 게이트웨이나 서비스 메시를 통해 요청을 특정 모델 버전으로 라우팅하여 A/B 테스트를 수행할 수 있습니다. 모델 레지스트리를 활용하여 각 LLM의 버전, 성능 지표, 배포 상태를 중앙에서 관리하는 것이 중요합니다. 질의 관련 최신 기능이 제공되는 GKE inference gateway 내용을 참고해보세요. https://cloud.google.com/kubernetes-engine/docs/concepts/about-gke-inference-gateway?hl=ko