기존 분산처리 기반에서 데이터 처리/분석을 하기 위해서는 MapReduce를 사용하셔야 했는데요. 이러한 프로그래밍적인 장벽을 낮춰주는 컴포넌트로 SQL on Hadoop엔진 '임팔라'를 추천 드립니다. 메모리 기반으로 인터렉티브한 분석이 가능하면서, 기존에 사용하시는 BI와도 integration이 유용하다는 장점이 있습니다.
클라우데라 하둡에 종속적이기 보다, 편리하게 설치와 운영이 가능하다는 장점이 있습니다. 임팔라와 Kudu 두개의 컴포넌트가 오픈소스 기반이기 때문에 아파치 하둡을 설치해서 사용하셔도 됩니다.
Cloudera의 장점은 검증된 오픈소스라는 것과 수 많은 Hadoop Ecosystem를 관리하는 Cloudera Manager를 말씀드릴 수 있습니다.
Apache 신규버전과 동일하게 반영되어 버전업이 되지 않습니다. 이유는 신규버전이 안고있는 버그 및 장애요소들을 Cloudera에서 우선적으로 검증 후, 해당 버전과 새로운 기능이 문제가 없다고 검증이 완료되면 버전 릴리스를 하고 있습니다.
처음 하둡을 시작하신다면 분산환경을 이해하셔야 합니다. 이를 위한 컴포넌트로는 Hadoop(HDFS, MapReduce, YARN)을 먼저 접근해 보시기 추천합니다. 그 이후 HDFS 기반으로 SQL Like한 분석을 하시고 싶으시면 '임팔라'를 추천 드립니다.