잠시 뒤에 나오겠지만 기업에서 보유하고 있는 데이터 셋이 어떠한 가치를 만들어 낼수 있는지 확인하는 것이 필요합니다. 아무리 좋은 서비스들을 활용해서 좋은 아키텍처를 구성한다 하더라도 데이터 품질이 떨어진다면 가치 있는, 의미 있는 결과물을 도출하기 어렵게 됩니다.
데이터 분석 플랫폼은 정해진 형태가 있는 것이 아니라 사용자의 요구사항에 따라 필요한 서비스를 구성하는 형태로 구축이 이루어집니다. 따라서 데이터 카탈로그 기능 뿐 아니라 데이터 수집 - 처리 - 분석 - 출력 등의 데이터 수명 주기 내의 모든 서비스와 기능을 제공할수 있고 이러한 기능들을 자동화 혹은 손쉽게 활용할 수 있는 기능을 제공하는 형태이기 때문에 다양한 이점을 가질 수 있습니다.
해당 서비스는 공식 런칭 이전으로, Preview 테스트를 위해 준비하고 있는 상황입니다.
현재는 preview 상태 ( 일종의 베타 서비스 ) 이고, 조만간 출시될 예정입니다.
이 부분은 저희도 확인이 필요할 것 같습니다. 확인되면 이후 정보 전달 드리겠습니다.
도입사 주도로 통합적인 아키텍처 설계나 구축 운영은 가능합니다. 데이터메쉬나 데이터패브릭의 핵심은 도메인 소유권과 자율성을 강조하는 것입니다. 도입사는 서드파티 플랫폼을 도입하면서도 데이터의 도메인 소유권과 협업을 보장할 수 있는 아키텍처 및 운영 모델을 설계할 수 있습니다.
COE(센터 오브 엑셀런스) 조직을 구성하여 각 도메인 전문가를 파견받아 데이터 카타로그를 관리하는 것은 하나의 해결책일 수 있습니다. 이렇게 구성된 COE 조직은 IT 부서와 현업 부서 간의 다리 역할을 수행하며, 데이터 카타로그 관리와 관련된 중재 역할을 할 수 있습니다. 이 경우, IT와 현업 간의 협업과 소통이 원활하게 이루어지며, 데이터 패브릭 구현의 효과를 동일하게 얻을 수 있습니다.
답변 감사합니다. 모든게 우선 인력 양성이 중요하네요...
AWS에서 제공하는 대부분의 Storage 및 DB 서비스에서 다양한 형태의 압축을 제공하고 있고 압축된 상태로의 검색 및 연산 기능을 제공하고 있습니다.
현재로서는 데이터메쉬(Data Mesh)와 데이터패브릭(Data Fabric)에 대한 벤더 간의 표준화된 참조모델이 없습니다. 데이터메쉬와 데이터패브릭은 기업의 데이터 아키텍처와 조직 문화에 따라 다양한 형태로 구현될 수 있가 때문에 벤더들은 이러한 개념을 지원하기 위해 제품과 서비스를 개발하고 있는 중입니다.
네, 추후 다시보기 영상과 함께 웨비나 페이지에서 공유해 드릴 예정입니다 :)
데이터의 수집은 앞으로의 필요를 예상하여 이루어지기 때문에 데이터를 활용하는 입장에서 필요한 데이터와 불필요한 데이터가 섞여 있어 불필요한 비용을 지불하는 경우가 많을 것으로 예상됩니다. 데이터를 선별하는 경험과 인사이트를 보유하는 것이 좋은 데이터를 선택해서 기회 비용을 절감할 수 있는 방법일 것 같습니다.
일단은 워크로드를 분석해서, 종량제 과금 방식의 serverless 가 비용 효율적인지, 아니면 일정 자원을 프로비저닝 해 놓고 계속 사용하는 것이 좋은지, 비교를 하실 필요가 있습니다.
데이터마트는 데이터 웨어하우스와 관련된 개념으로, 특정한 주제나 부서에 초점을 맞춘 데이터 저장소라고 보시면 되고, 데이터메쉬는 데이터 조직과 아키텍처의 개념으로, 기업 내의 데이터 생태계를 구축하는 방법론입니다
데이터 카탈로그는, 데이터 플랫폼을 사용자들이 실질적으로 잘 사용하기 위한 , 데이터 목록/정보 ( 테크 메타, 비즈니스 목적의 메타 ) 를 제공하는 서비스라고 보시면 될 듯합니다.
데이터를 활용하여 가치를 창출해내는 과정에서 중요한 부분 중 하나가 데이터 선별 작업입니다. 수집된 데이터에서 인사이트를 발견하고 적절한 데이터 셋을 구성하는 것은 자동화 되기가 어려운 부분입니다. AWS 내에서는 데이터를 손쉽게 확인하고 선정할 수 있도록 DataBrew라는 서비스를 제공하고 있으며 Glue 등의 서비스로 python, spark 등의 언어를 통해 가공할 수 있도록 하고 있습니다.
데이터 레이크를 잘 활용하려면 데이터 레이크에 저장된 데이터를 잘 카탈로그화 해서 , 데이터 수요자들이 쉽게 찾아서 접근할 수 있도록 해야 합니다. 카탈로그 서비스를 잘 선택하셔서, 카탈로그화 하셔야 합니다. AWS 인 경우, Glue Catalog 서비스를 권장합니다.
상세한 답변 감사합니다.
AWS Security Hub 는 서버리스 서비스는 아닌것으로 보입니다. https://aws.amazon.com/ko/security-hub/
아직 답변이 없습니다
데이터 레이크는 물리적으로는 중앙집중식 스토리지 이지만, 논리적으로는 데이터 영도별로 영역을 구분하여 저장합니다. 목적에 맞게 폴더와 디렉토리를 설계해서, 구분해서 저장하는 걸로 이해해주시면 됩니다.
아 논리적으로 영역별로 구분해서 저장이 되는군요...답변감사합니다. 그럼 ai, bi 데이터는 중복저장되는 것은 아닌건가요?
데이터 레이크는 필요한 데이터를 일단 데이터 호수에 다 모으는 개념입니다. 중복이 될 수 있습니다. 따라서 거버넌스 차원에서 중복이 되지 않도록 데이터를 식별해서, 선별을 하는 것이 중요합니다.
알겠습니다. 답변 감사합니다.
아직 답변이 없습니다
아직 답변이 없습니다