말씀주신것처럼 일반적인 데이터레이크에서는 데이터의 이동이 빈번하게 발생하며, Hot/Warm/Cold로 데이터 타입이 분류되어 어쩔수 없이 분석 데이터를 샘플링할 수 밖에 없습니다.
퓨어는 데이터 허브 아키텍처를 통해 모든데이터를 하나의 도메인으로 관리하고, 데이터의 이동을 최소화하는 아키텍처로 데이터 분석 환경을 개선하는 모델을 젝공드리고 있습니다. 이것의 핵심은 UFFO 라고 하는 Fast Object/Fast File을 통해 모든 기능을 제공할 수 있습니다.
(질문) 일반적으로 데이터 분석을 위해서는 데이터웨어하우스(DW)나 데이터레이크에서 데이터를 추출해서 워크스테이션에서 머신러닝을 돌리고, 데이터를 모두 워크스테이션으로 가져올 수 없으니 데이터를 샘플링하게 되고, 샘플 데이터가 이동하는 과정에서 속도도 저하되고, 전체 데이터를 분석하는 것이 아니라 분석 품질이 떨어질 가능성도 있어 보입니다. 이런 이슈 없이 샘플데이터를 추출하지 않고 DB내에서 데이터를 직접 분석 할 수 있는지 궁금하며, 만약 가능하다면 전체 데이터가 분석 대상이 되어 데이터 이동 시간도 어느 정도 절감할수 있는지요.