AI Factory시작은 가볍게 시작하고 점진적으로 확장하는 방식을 설계해야합니다. 대개 파일럿기간은 검증범위에따라 다르지만, 대개 3~6개월정도 소요됩니다.
1. Git기반 코드/구성모델을 통합적으로 관리하고 자동화시키는 방법 2. AI에이전트 컨테이너화를 통한 경량화 및 OTA 배포체계 3. Prometheus나 Grafana와 같은 툴을 이용한 성능모니터링, 카나리 배포방식의 신규모델 점진적배포및 안정화 4. Secure MLOps구현, 파이프라인 내 보안 자동화적용
클러스터내부에 생성되는 AI서비스와 외부 네트워크인프라간의 유기적 연계 및 자동화가 핵심일 것입니다.
F5가 정의하는 AI Factory의 필수 구성 요소는 데이터 파이프라인, 모델 라이프사이클 관리, API 배포, 트래픽 관리, 보안 거버넌스입니다. 특히 F5는 API 트래픽을 안정적이고 안전하게 제어하고, DPU에 설치할 수 있는 고성능 ADC 솔루션(BINK: F5 Software ADC)으로 AI 팩토리의 CPU 부하를 오프로드해서 AI 서비스가 본연의 모델 처리에 집중할 수 있게 지원합니다.
영상 후미에 나오는 고객사용사례를 참고하시면 될것같습니다.
데이터수집이나 전처리, 추론, RAG와 같은 기능들이 서로 독립적인 마이크로서비스형태로 분리하여 이런 장애전파를 방지할수 있겠습니다. 그리고 사용자별 트래픽유형을 분리하고 AI모델별 리소스를 분리하거나 제한시키는 것도방법이 될 것 같습니다.
AI Factory는 범용적인 개념이지만, 실제 도입은 각 산업의 요구에 맞춰 커스터마이징이 필요합니다.
네, 데이터를 저장할 때 노이즈제거나 메타데이터추출과같은 전처리과정도 AI팩토리 운영환경에서 필요한 부분입니다.
AI워크로드는 한번에 처리되는 데이터 사이즈가 기존데이터센터와 다르게 한번에 전송되는 트래픽 양 자체가 다릅니다. 그리고 대규모 학습이나 추론을위해 고성능의 컴퓨팅자원(GPU/CPU/DPU)이 사용된다는 점이 가장 큰 차이점 이라고 볼수 있습니다.
👍☺👏
AI의 트래픽은 기존 앱 트래픽과 많이 다릅니다. 예측이 어려워서 갑자기 몰리는 스파이크성 트래픽이 많고 요청이나 응답 크기가 더 크거나 복잡해지는 경우가 많습니다. 사용자 프롬프트에 따라 지연에 민감한 서비스가 많아 최적화가 필수입니다. 보안 위협과 범위도 많이 바뀌어서 AI 프롬프트가 공격벡터가 되는 프롬프트 인젝션(OWASP LLM Top 10) 같은 새로운 위협을 막아야 합니다. F5는 이런 트래픽 특성에 맞춰 지능형 분산, 오프로드, 보안정책을 지원합니다.
AI 서비스는 리소스 소모가 심하고 언제 트래픽이 몰릴지 예측이 어렵습니다. F5는 AI 워크로드를 주기적으로 체크해서 가장 효율적인 로드밸런싱으로 트래픽 관리 기능을 제공해서 예측 불가능한 스파이크 상황에서도 성능 저하 없이 안정적인 서비스를 유지할 수 있도록 돕습니다.
프론트엔드 앱에대한 보안은 API보안이나 DDoS와 같은 보안이 적용될 수 있고, 내부 클러스터내에서는 AI 게이트웨이를 통한 OWASP LLM top 10방어 구현을 고려해볼 수 있을 것 같습니다.
스마트팩토리는 데이터자체가 비정형이고 데이터안에 포함된 노이즈가 많아 AI모델학습하는데 어려워하는 고객분들이 많습니다.
AI Factory는 데이터 팩토리와 소프트웨어 팩토리의 개념을 확장해서 AI 모델을 개발하고 배포,운영까지 일관된 파이프라인을 제공하고 자동화하는 것을 목표로 합니다. 중요한 차이는 AI 라이프싸이클에 AI 팩도리가 집중하고 있다는 점 입니다.
로드밸런서가 XAI자체를 구현하지는 않지만 XAI 기능이 안정적이고 확장성있게 서비스되도록 도와주는 인프라역할을 할수있습니다.
AI Factory 개념은 AIOps 를 실현하는데 중요한 기반이됩니다. 데이터 파이프라인, GPU리소스나 자동화된 MLOps등 AIOps구현을위한 데이터수집, 분석, 의사결정의 토대가 됩니다.
에이전트마다 역할이나 응답시간 리소스사용량이 다를것이므로, 요청내용에 따라 특정 AI에이전트로 요청을 분기하는 작업이 필요할 것같습니다. 예를들면 실시간 리소스 사용량이나 응답지연시간기준의 부하분산이 될 수 있겠습니다.
프론트엔드앱에 대한 보안을위해 API보안이나, OWASP LLM TOP10 보안을위한 AI게이트웨이가 고려되야 합니다.
데이터수집에대한 최적화, 저지연과 하드웨어기반의 빠른 부하분산처리로 AI딜리버리과정을 극대화하게됩니다.
DevOps조직이 관리하는 클러스터내 서비스와 NetOps조직이 관리하는 인프라간의 서비스 정합성이 가장중요합니다. 이를위한 자동화구현을 어떻게 설계할지가 핵심이라고 보면됩니다.
블루-그린 배포나 카나리배포 방식의 업데이트를 통해 구현이 가능합니다.