데이터를 활용하여 가치를 창출해내는 과정에서 중요한 부분 중 하나가 데이터 선별 작업입니다. 수집된 데이터에서 인사이트를 발견하고 적절한 데이터 셋을 구성하는 것은 자동화 되기가 어려운 부분입니다. AWS 내에서는 데이터를 손쉽게 확인하고 선정할 수 있도록 DataBrew라는 서비스를 제공하고 있으며 Glue 등의 서비스로 python, spark 등의 언어를 통해 가공할 수 있도록 하고 있습니다.
데이터 레이크를 잘 활용하려면 데이터 레이크에 저장된 데이터를 잘 카탈로그화 해서 , 데이터 수요자들이 쉽게 찾아서 접근할 수 있도록 해야 합니다. 카탈로그 서비스를 잘 선택하셔서, 카탈로그화 하셔야 합니다. AWS 인 경우, Glue Catalog 서비스를 권장합니다.
상세한 답변 감사합니다.
AWS Security Hub 는 서버리스 서비스는 아닌것으로 보입니다. https://aws.amazon.com/ko/security-hub/
아직 답변이 없습니다
데이터 레이크는 물리적으로는 중앙집중식 스토리지 이지만, 논리적으로는 데이터 영도별로 영역을 구분하여 저장합니다. 목적에 맞게 폴더와 디렉토리를 설계해서, 구분해서 저장하는 걸로 이해해주시면 됩니다.
아 논리적으로 영역별로 구분해서 저장이 되는군요...답변감사합니다. 그럼 ai, bi 데이터는 중복저장되는 것은 아닌건가요?
데이터 레이크는 필요한 데이터를 일단 데이터 호수에 다 모으는 개념입니다. 중복이 될 수 있습니다. 따라서 거버넌스 차원에서 중복이 되지 않도록 데이터를 식별해서, 선별을 하는 것이 중요합니다.
알겠습니다. 답변 감사합니다.
아직 답변이 없습니다
아직 답변이 없습니다
아직 답변이 없습니다
아직 답변이 없습니다
아직 답변이 없습니다
아직 답변이 없습니다
아직 답변이 없습니다
아직 답변이 없습니다
아직 답변이 없습니다
아직 답변이 없습니다
아직 답변이 없습니다
아직 답변이 없습니다
아직 답변이 없습니다
아직 답변이 없습니다