Q

[질문] 클라우드의 GPU 자원을 이용해 보자고 제가 현재 근무 중인 회사에서 수개월 전에 제안해 본 적 있었는데 학습용 데이터의 전송을 위한 비용이 지나치게 높게 발생할 것이라면서 반대하시는 분들이 계셔서 어려움에 빠졌던 적이 있었습니다. 학습용 데이터 전송의 비용에 대해서는 너무 걱정하지 않아도 된다고 주장하려면 어떤 근거와 전략으로 이야기를 전개하는 것이 좋을까요? 학습용 자료는 고해상도 영상 이미지 파일들로 구성되어 있어서 크기가 크기는 했습니다.

전영진 2020-09-16 16:21
A

절대 전송량이 큰 문제를 해결할 수 있는 방법은 없지만, 중복 전송을 최대한 막는 방법들이 있습니다. 예를 들면, 여러 대의 노드들이 공통 데이터를 사용하여 분산 훈련을 수행하는 경우 단일 데이터레이크를 사용하고, 연산 노드들을 최대한 레이크와 직결하는 등의 방법입니다. 자주 억세스하는 데이터는 노드별로 자동 캐시등을 적용하도록 구성하는 것을 권장합니다. 데이터 전송 비용 자체는 갈수록 저렴해지는 추세이고, 퍼블릭 클라우드를 쓰는 경우 및 데이터 변동이 적은 경우 네트워크를 거치지 않는 데이터 전송 (예를 들어 AWS Data Import 서비스와 같이 하드디스크를 택배로 부치는 서비스 등의) 방법을 이용하시는 방법이 있습니다.

래블업 주식회사 2020-09-16 16:44
A

답변 주셔서 고맙습니다. AWS Data Import 같이 네트워크를 거치지 않는 데이터 전송 방법에 대해 전에도 들어본 적이 있지만 이 부분에 대해서는 진지하게 생각해보지 않았습니다. 다시 한번 잘 생각해보겠습니다.

전영진 2020-09-16 16:48
A

일당 누적 데이터사이즈가 테라 단위라면 네트워크로 전송하는 비용이 물리 전송 비용보다 훨씬 저렴할 것입니다. 만약 이미 IDC에 자원이 있다면 퍼블릭 클라우드들마다 전용회선 구축 상품등이 있으므로 알아보시면 도움이 될 듯 합니다.

래블업 주식회사 2020-09-16 16:53
A

[질문] Backend.ai를 on-premise 시스템으로 이용할 수 있는 것처럼 설명하는 자료를 방금 인터넷에서 찾았는데요. Backend.ai를 on-premise 시스템으로 이용할 수도 있나요? 지금은 <발표자에게 문의하기>를 이용할 수 없는 것 같아서 여기에 질문 남깁니다.

전영진 2020-09-16 17:25