절대 전송량이 큰 문제를 해결할 수 있는 방법은 없지만, 중복 전송을 최대한 막는 방법들이 있습니다. 예를 들면, 여러 대의 노드들이 공통 데이터를 사용하여 분산 훈련을 수행하는 경우 단일 데이터레이크를 사용하고, 연산 노드들을 최대한 레이크와 직결하는 등의 방법입니다. 자주 억세스하는 데이터는 노드별로 자동 캐시등을 적용하도록 구성하는 것을 권장합니다. 데이터 전송 비용 자체는 갈수록 저렴해지는 추세이고, 퍼블릭 클라우드를 쓰는 경우 및 데이터 변동이 적은 경우 네트워크를 거치지 않는 데이터 전송 (예를 들어 AWS Data Import 서비스와 같이 하드디스크를 택배로 부치는 서비스 등의) 방법을 이용하시는 방법이 있습니다.
답변 주셔서 고맙습니다. AWS Data Import 같이 네트워크를 거치지 않는 데이터 전송 방법에 대해 전에도 들어본 적이 있지만 이 부분에 대해서는 진지하게 생각해보지 않았습니다. 다시 한번 잘 생각해보겠습니다.
일당 누적 데이터사이즈가 테라 단위라면 네트워크로 전송하는 비용이 물리 전송 비용보다 훨씬 저렴할 것입니다. 만약 이미 IDC에 자원이 있다면 퍼블릭 클라우드들마다 전용회선 구축 상품등이 있으므로 알아보시면 도움이 될 듯 합니다.
[질문] Backend.ai를 on-premise 시스템으로 이용할 수 있는 것처럼 설명하는 자료를 방금 인터넷에서 찾았는데요. Backend.ai를 on-premise 시스템으로 이용할 수도 있나요? 지금은 <발표자에게 문의하기>를 이용할 수 없는 것 같아서 여기에 질문 남깁니다.