Q

[질문] 데이터 레이크와 데이터 웨어하우스 모두 데이터를 한 중앙 저장소로 모으는 데 초점을 맞추는데, 따라서 기업은 이를 관리할 스토리지 및 컴퓨팅 성능을 구비하게 되는데요,, 그러나 이게 기업이 보유한 데이터를 최대한 활용할 수 있는 최선의 방법은 아니고, 또 데이터 레이크에서 데이터 팀은 다양한 도메인을 위한 분석 파이프라인을 준비하여 이러한 도메인 팀의 수많은 사용자가 데이터를 사용할 수 있도록 해야 하는데 이것도 문제이기에 데이터를 정제하고, 풍부하게 만들며, (다양한 고객 니즈를 해결할 수 있는) 사용 가능한 데이터로 변환하기 전에, 데이터를 수집해야 하는 데이터 팀의 부담이 큽니다. 빅쿼리로 이러한 문제를 해결 가능한지 궁금합니다.

양성필 2023-04-26 15:10
A

BigQuery, Dataproc, Cloud Run 등 을 적용하여 ETL 파이프라인, 데이터 마트, 데이터 레이크 를 구성할 수 있습니다. BigQuery는 OLAP 분석 서버의 인프라 관리 비용은 0원으로 만들어 줄 수 있는 서비스입니다.

클라우드메이트 2023-04-26 15:13
A

네, 그렇군요, 답변 감사 드립니다.

양성필 2023-04-26 15:14
Q

[질문] BigQuery는 성능 개선을 위한 튜닝 작업을 거의 대부분 자동으로 한다고 했는데 그러면 튜닝을 위해서는 데이터 통계정보가 필요할텐데 이런 통계정보는 어떻게 구축하며 실시간으로 변하는 데이터에 대한 통계정보도 실시간으로 구축하는지요 ?

조형범 2023-04-26 15:08
A

통계정보는 보통 OLTP에서 일부 데이터에 엑세스하는 플랜을 작성하기 위한 정보이고, DW나 OLAP에서의 대상 데이터는 전체 데이터일 경우가 많으므로 통계정보에 대한 고민은 맞지 않는것 같습니다.

클라우드메이트 2023-04-26 15:10
A

그렇군요. 그러면 DW나 OLAP에서는 성능향상 튜닝은 어떤 개념으로 이해할 수 잇나요 ?

조형범 2023-04-26 15:12
A

DW에서의 성능향상은 전체 데이터를 빠르게 스캔할 수 있는 디스크서브시스템 이 솔루션이 되는 경우가 많고, 인덱스의 경우도 각 범용의 인덱스보다는 각 쿼리에 맞는 인덱스를 전용으로 설계하는 경우가 많았던것 같습니다.

양철민 2023-04-26 15:14
Q

BigQuery는 성능 개선을 위한 튜닝 작업을 거의 대부분 자동으로 합니다. -> [질문] 튜닝을 위해서는 데이터 통계정보가 필요할텐데 이런 통계정보는 어떻게 구축하며 실시간으로 변하는 데이터에 대한 통계정보도 실시간으로 구축하는지요 ?

조형범 2023-04-26 15:07

아직 답변이 없습니다

Q

[질문] 데이터 웨어하우징과 마찬가지로 데이터 레이크는 데이터 처리 방식을 변화시켜 실시간 스트리밍 기능과 정형 및 비정형 데이터 처리 기능을 제공했는데요,, 또 데이터 레이크는 데이터 웨어하우스보다 데이터 소비, 저장, 출력을 더욱더 잘 처리하고 메타데이터를 적용하여 데이터 웨어하우스보다 유연한 성능을 제공할 수 있었습니다. 하지만 데이터 레이크도 한계점에 부딪혔는데, 기업 내 데이터 팀은 보유한 데이터로 분명히 더 많은 일을 할 수 있었지만 그러나 서로 다른 요구사항을 가진 여러 부서의 요청을 처리하는 일은 여전히 비효율적인데요, 빅쿼리를 활용하면 이러한 부분에 있어 구체적으로 어떤 개선 효과를 기대할 수 있는지 궁금합니다.

양성필 2023-04-26 14:56
A

서로 다른 부서의 요청을 처리 하기 위해 최고의 성능을 내기 위한 적절한 모델링을 고민해야 했다면 빅쿼리는 막강한 컴퓨팅으로 대용량의 데이터 처리에 부담을 줄여줄 수 있습니다.

양철민 2023-04-26 15:00
A

네, 답변 감사합니다.

양성필 2023-04-26 15:11
Q

5억이 아니라 57억 어닌가요?

이형준 2023-04-26 14:55
A

네. 이형준 선생님 말씀이 맞습니다. 제가 컨디션이 좀 안좋았던 것 같습니다. 너그러운 양해의 말씀 드립니다.

클라우드메이트 2023-04-26 14:56
Q

[질문] cachecat 이 캐싱 역할을 하고 그와 동시에 guery 게이트웨이 기능도 함께 해서 쿼리를 빅쿼리에 보낼지 아님 cachecat 내에서 처리할 지 결정을 하는것인지요?

윤성원 2023-04-26 14:48
A

네 정확하십니다^^

클라우드메이트 2023-04-26 14:48
A

오 빅쿼리의 성능이 좀 더 향상되는 효과도 볼수 있고 비용도 절감할 수 있는 효과가 있겠네요...답변 감사합니다.

윤성원 2023-04-26 14:49
Q

[질문]빅쿼리의 데이터 분석 모델링과 기존 데이터 분석 모델링의 주요 차이점은 무엇인지요? 빅쿼리를 분석을 위한 수집하는 데이터 구조에 대한 주요 설계 요소, 방안은 어떻게 되는지요?

지정호 2023-04-26 14:47
A

가장 큰 차이점은 모델링에 대해서 인프라 관점의 고민이 필요없다는 점이 될 수 있겠습니다. 지정호 님의 질문 내용을 보고 지그시 눈을 감아보았으나, 몇시간 동안의 디스커션이 필요한 내용일 것 같습니다. [email protected] 로 문의 주시면 친절히 상담드리겠습니다.

클라우드메이트 2023-04-26 14:50
Q

[질문] 빅쿼리는 sql_lite 같이 모바일용으로는 사용하는 것은 어려울 수 있다고 봐야 하나요? 이름이 빅이어서..

윤성원 2023-04-26 14:44
A

Sqlite 는 애플리케이션 내장형 로컬 DB이고, BigQuery 는 Google Cloud에서 제공하는 완전관리형 서비스 입니다.

클라우드메이트 2023-04-26 14:45
A

예 그렇죠..빅쿼리의 lite형은 없는지 궁금해서 문의드린겁니다.

윤성원 2023-04-26 14:46
A

BigQuery Edition 기능이 GA 되어 있습니다. https://cloud.google.com/bigquery/docs/editions-intro?hl=ko 위 링크를 참고 부탁드립니다.

클라우드메이트 2023-04-26 14:48
Q

아 이제 좀 빅쿼리를 선호하는 이유를 알수 있을것 같네요 그럼 빅쿼리의 단점은 무엇인가요?

윤성원 2023-04-26 14:43

아직 답변이 없습니다

Q

그렇군요 답변 감사합니다. 기존 데이터 마이그레이션을 할 필요성은 없는거죠?

문태진 2023-04-26 14:42

아직 답변이 없습니다

Q

아 그럼 일단 인프라차 크게 충분히 산정해 놓고 그 인프라를 조금씩 조금씩 사용하는 것이군요..답변 감사합니다. 그런데 초기 인프라 비용이 많이 나오지 않을까요?

윤성원 2023-04-26 14:42

아직 답변이 없습니다

Q

[질문] 타사 클라우드에서 data에 대한 query의 경우, GCP 내에 복제 없이 사용하는 방법인가요? 그래서 그 가운데 자주 query 되는 항목은 cache 저장도 가능하구요?

이형준 2023-04-26 14:42
A

Google Cloud Storage로 데이터를 복제하고 (업로드), 해당 데이터를 BigQuery에서 쿼리할 수 있으며, 해당 쿼리의 result cache 기능을 지원합니다.

클라우드메이트 2023-04-26 14:44
Q

[질문] 빅쿼리가 거의 손될것이 없다고 하셨는데 그럼 장애시에도 자동 치유가 가능한것이지 장애대응은 어떻게 해결할 수 있는지 궁금합니다. 기존 rdb와 비교해서 어떤점이 다를수 있는지요?

윤성원 2023-04-26 14:40
A

빅쿼리는 완전 관리형 서비스라 몇 개 노드를 실행한다는 개념이 없어요... 그러다 보니 장애가 났다 안났다는 것을 사용자가 인지하지 못합니다. 만약 내부적으로 그런 일이 있다고 해도 분산환경에서 노드 failover 입니다.

정명훈 2023-04-26 14:42
A

아 이제 좀 빅쿼리를 선호하는 이유를 알수 있을것 같네요 그럼 빅쿼리의 단점은 무엇인가요?

윤성원 2023-04-26 14:43
A

손댈것이 없다고 하는 부분은 인프라관리 영역이 그렇다는 것이구요. 보통의 RDP들은 ACID를 지원하지만 빅쿼리는 그렇치는 않습니다.

양철민 2023-04-26 14:42
Q

[질문] ChatGPT를 연계하여 캐시엔진을 활용한 빅쿼리를 활용하는 방안이 제공되나요?

임종택 2023-04-26 14:40
A

안녕하세요. 해당 내용은 실제로 구축하시려는 서비스의 시나리오, 그리고 전체 인프라를 우리 클라우드메이트에서 구축, 컨설팅, 기술지원 해드릴 수 있습니다. [email protected]로 문의주시면 친절히 상담해드리겠습니다.

클라우드메이트 2023-04-26 14:42
Q

아직도 하둡을... 쓰나요?

이형준 2023-04-26 14:37

아직 답변이 없습니다

Q

[질문] BigQuery에서 Google Cloud Storage로 테이블 내보내기가 가능한지 궁금합니다. 권한에 따른 오류 등의 사전 체크해봐야 할 부분은 무엇인지도 궁금합니다.

김현진 2023-04-26 14:36
A

네. 가능합니다.

양철민 2023-04-26 14:39
Q

[질문] 빅쿼리가 클라우드기반이라 scale-out으로도 해결할 수 있는데 scale-up을 실행하거나 그 반대로 쿼리를 실행해서 cost-effective 효과에 저해될 수도 있을 것 같은데 이런 빅쿼리의 스케일업과 아웃 메카리즘은 어느정도 신뢰할 수 있는지요?

윤성원 2023-04-26 14:36
A

BigQuery 서비스는 고객의 인프란 관리 포인트를 0에 가깝게 만들어놓은 서비스라고 말씀드릴 수 있습니다. BigQuery의 BORG (하이퍼바이저) 내에서 컴퓨팅 노드를 자동으로 구성합니다. BigQuery의 성능 테스트는 웨비나 후반부를 봐주시면 좋을 것 같습니다.

클라우드메이트 2023-04-26 14:39
A

아 그럼 일단 인프라차 크게 충분히 산정해 놓고 그 인프라를 조금씩 조금씩 사용하는 것이군요..답변 감사합니다. 그런데 초기 인프라 비용이 많이 나오지 않을까요?

윤성원 2023-04-26 14:42
Q

[질문] 구글 빅쿼리 적용위한 최소 용량대비 도입비용 효울성을 위한 권장용량은 몇 TB 정도가 시작점인지요? 200TB 정도면 3가지 중 빅쿼리가 효율적일까요?

문태진 2023-04-26 14:34
A

용량과 무관하게 BigQuery의 Storage 비용은 저렴하며, Google Cloud의 "콜로서스"라는 따른 분산 스토리지를 이용하게 됩니다.

클라우드메이트 2023-04-26 14:37
A

그렇군요 답변 감사합니다. 기존 데이터 마이그레이션을 할 필요성은 없는거죠?

문태진 2023-04-26 14:42
Q

[질문] 빅쿼리같은 고성능 db에서는 index의 설계를 어떻게 하는지 궁금하고 firest index의 속도 문제를 해결하기 위한 second index 설정도 가능하지 궁금합니다. 이를 통해 어느정도 속도개선 효과가 가져올 수 있는지요?

윤성원 2023-04-26 14:33
A

BigQuery 모델링에서는 파티션 컬럼을 특정하여 모델링할 수 있는 부분만 있으며, 일반적으로 OLAP 환경에서는 특정 컬럼들에 대한 Clustered Index, Nonclustered Index 를 생성하지 않습니다.

클라우드메이트 2023-04-26 14:35
A

아 인덱스 생성이 필요없는 아주 큰 장점이 있군요...답변 감사합니다.

윤성원 2023-04-26 14:37
Q

[질문] POC신청방법은 추가 공유해주시는건가요?

한승민 2023-04-26 14:31
A

[email protected]로 연락 주세요.

양철민 2023-04-26 14:32