LLM의 응답 지연을 줄이기 위한 Async Serving 설계는 비동기 처리 모델을 사용하여 요청을 동시에 처리하고, 이를 위해 FastAPI와 같은 비동기 웹 프레임워크를 이용해 추론 요청을 메시지 큐(예: Kafka, RabbitMQ)에 넣어 워커들이 비동기적으로 처리하도록 구성합니다. 또한, 논블로킹 I/O를 활용하여 GPU 자원을 최대한 활용하도록 최적화합니다.