보통 데이터 preparation 단계를 데이터사이언스 워크스테이션에서 실행하는 경우가 많은데, 그린플럼의 기본적인 쿼리 사용만으로 병렬처리가 되어 데이터 이동없이 이런 전처리 시간을 단축시켜줍니다. 필요시 PL/R, PL/Python으로도 SQL 쿼리에서 제공하지 않는 로직도 병렬 처리됩니다.
코어 엔진이 Postgres이므로 쿼리를 사용합니다
데이터사이언티스트의 스킬셋에 따라 적합한 방식을 선택할 수 있겠습니다. 모델 개발이 가능하신 분은 PL/R, PL/Python 을 주로 사용하고, SQL쿼리에서 빌트인된 SQL함수 형태로 쓰는 방식은 조금 스킬셋이 떨어져도 사용이 가능한 방식입니다.
가장 일반적인 활용법이 데이터레이크에서 1차 데이터 정제 후 그린플럼에서 사용자 서비스를 하는 것이 대표적입니다. 데이터레이크를 콜드 데이터 보관이나 정제되지 않은 raw데이터 보관, 백업의 기능으로 활용하고 서비스 영역이나 데이터 분석 영역을 그린플럼으로 구분하는 아키텍처를 많이 사용하고 있습니다.
CNGone에서 수행했던 모 유통업체 분석DW사업에서 클라우드에서 발생하는 마케팅 데이터 로그를 DW의 데이터와 연동하여 분석하는 사례를 가지고 있습니다.
개발자의 능력치에 따라서는 어렵지 않게 개발하실 수는 있겠지만, 데이터베이스의 쿼리를 사용하는 것에 비해서는 컴파일부터 디버깅까지 소요되는 시간이 아무래도 더 걸리고, 개발의 스킬 정도에 의존도가 있다보니 조금 더 어렵다고 표현하는 것입니다.
보통 데이터사이언티스트의 스킬셋을 보면 통계 분야의 공부를 하신 분들이 많은데, 중요한 부분은 분석 영역의 비즈니스적인 이해도가 높아야 한다고 생각됩니다. 많은 데이터사이언티스트들이 새로운 툴이나 새로운 라이브러리 적용을 높은 분석 작업의 높은 우선 순위로 생각하는 경우가 많지만, 분석 결과에 대한 비즈니스적인 해석 능력이 더 중요하지 않을까 생각됩니다
스트림 데이터 적재시에 사전에 정의한 배치 프로시저를 호출하는 형태로 적재 작업을 구성하면 적재와 병합처리까지 한번에 처리됩니다.
라이센스 방식은 용량단위가 아닌 시스템 코어 단위의 subscription 형태입니다.
전통적인 ETL방식으로 데이터를 적재하는 것은 기본적인 방법이고, 하둡이나 클라우드와 연계하여 필요할 때 추출하는 방법, Kafka와 같이 스트리밍 형태로 데이터가 적재되는 데이터를 적재하는 방법 등 여러가지를 가지고 있습니다.
안녕하세요