빅데이터 기술에는 Apache Hive (2014, SQL)에서 Apache Storm (2015, 실시간), Apache Spark (2016, 기계학습)까지 지속적으로 다양한 기술이 추가되고 있습니다. 호튼웍스는 고객사들에게 추가 비용 없이 천시간이 넘는 온라인 교육을 지원하고 있으며, 필요한 경우 강사료를 받고 현장 교육 또한 제공하고 있습니다.
호튼웍스에서는 아마존, MS와 함께 클라우드 최적화된 제품을 공급하고 있습니다. Hortonworks Data Cloud for AWS, Microsoft HDInsight와 같은 제품들은 사용한 만큼 지불하는 클라우드 비용에 통합되어 지불되고 관리됩니다. https://ko.hortonworks.com/products/cloud/
자신의 컴퓨터에서 사용할 수 있는 가상기계인 샌드박스와, 아마존, MS 클라우드에서도 모두 호튼웍스용 무료 테스트 VM을 제공합니다.
호튼웍스에서도 클라우드 고객이 최근 빠른 속도로 증가하여 온프레미스 고객의 수를 따라잡았습니다. 호튼웍스는 현재 MS, 아마존, 구글에서 제공하는 클라우드를 모두 지원하고 있습니다. CloudBreak라는 오픈소스 클라우드 관리 소프트웨어도 제공하고 있기 때문에, 공급자 인터페이스(SPI)만 구현한다면 어떤 클라우드도 모두 지원할 수 있습니다.
첫째로 클라우데라와 달리, 호튼웍스는 모든 제품을 완전한 오픈소스로 개발하여 공급하고 있습니다. 그리고 Apache Hadoop의 차세대 프레임워크인 YARN을 개발하여 공급하고 있습니다. 호튼웍스의 YARN은 클라우데라와 달리 용량 기반 작업 관리(Capacity Scheduler) 기능을 제공하기 때문에, 클러스터를 더욱 효율적으로 사용할 수 있습니다.
프로그램을 직접 개발한 사람만큼 지원을 잘 할 수 있는 사람은 없습니다. 따라서 호튼웍스는 아파치 소프트웨어 재단에서 하둡 관련 프로젝트 개발자를 가장 많이 고용하고 있습니다. 야후, MS, IBM, EMC 등이 호튼웍스의 제품을 기반으로 작동하기에 호튼웍스는 10만개의 테스트를 수행한 가장 안정적인 버전을 출시하고 있습니다. 따라서 고객사들은 이들 글로벌 IT 리더 회사들이 보장받는 것과 같은 수준의 안정성을 보장받으실 수 있습니다.
경쟁사의 경우, C사는 관리 및 보안 도구는 오픈소스로 제공하고 있지 않습니다. M사는 파일 시스템까지도 오픈소스로 제공하고 있지 않습니다. 호튼웍스만이 관리 및 보안도구, 그리고 파일 시스템을 포함한 모든 요소를 오픈소스로 개발하여 아파치 소프트웨어 재단에서 직접 개발하여 공급합니다. 이는 각 회사의 창업 및 경영 이념의 구현의 차별점입니다.
Apache Atlas라는 데이터 리니지 서비스를 제공하고 있습니다. 현재 Apache Hive에 대한 기능을 제공하고 있으며, 추후 Apache Kafka, Apache Storm, Apache HBase 까지 지원할 예정에 있습니다.
Microsoft Azure, Amazon Web Service, OpenStack, Google Cloud Platform 모두 지원하며, Oracle Cloud는 아직 기본 지원되고 있지 않습니다.
호튼웍스에서는 스마트센스(SmartSense)라는 자동 최적화 기능을 제공하고 있습니다. 스마트센스는 250가지 이상의 항목에 대하여 진단하고 보고서를 만들어 해결책을 제시합니다. 이러한 자동 진단 도구와 호튼웍스 전문가의 도움을 받아 일반적으로 수주~수개월 내에 안정화를 수행해왔습니다. 많은 고객들이 1년 내에 투자 비용보다 많은 효용을 보아왔습니다.
많은 회사들이 기존의 한계를 극복하는 신제품을 만들어서 차별화하는 데에 주력하는 반면, 호튼웍스는 기존 제품을 발전시키는 데에 주력하고 있습니다. Apache Hive의 경우, Apache Tez라는 차세대 배치 실행엔진과 Hive LLAP라는 인메모리 실행엔진을 내장하게 되었습니다. 따라서 고객사들은 새로운 요소를 추가 설치하고 학습하고 관리할 필요 없이, 새로운 차원의 기능과 성능을 사용할 수 있게 되었습니다.
호튼웍스는 Apache Hadoop 내에서 YARN이라는 범용 클러스터 공유 프레임워크를 개발했습니다. 기존의 MR은 단 한 대의 컴퓨터가 Task Tracker를 사용하여 작업 관리 역할을 수행합니다. YARN은 Resource Manager가 여러 개의 Application Master를 작동시켜 이러한 관리 작업을 부하시킵니다. 이 결과, 기존 MR 대비 2배 이상의 규모도 한 클러스터에서 다룰 수 있게 되었습니다.
기존의 하둡 배포판 회사들은 저장된 데이터에 대한 처리에 집중해왔습니다. 그러나 호튼웍스는 실시간 데이터의 수집, 가공, 처리 기능을 제공하는 Hortonworks Data Flow 또한 제공하고 있습니다. HDF에는 Apache Kafka, Apache Storm, Apache NiFi 등의 요소가 있습니다. 따라서 이러한 실시간성이 다른 하둡 개발회사와 크게 차별화되는 요소입니다.
하둡 생태계 내에서 사용하는 기술들은 다양합니다. 대용량 저장, 실시간 조회, SQL 처리, 스트림 처리, 기계 학습 등 다양한 요소들이 있습니다. 따라서 고객이 사용하고자 하는 분야에 따라서 다릅니다. 연중무휴로 기술 지원을 하는 팀이 고객의 클러스터가 작동하지 않는 경우에는 4시간 이내에 최초 응답을 합니다.
최신 버전을 택하시는 편이 좋으며, 메이저 버전이 올라간 첫 버전보다는 되도록 다음 버그 패치가 나온 버전을 사용하는 편이 안정적입니다. 현재는 HDP 2.5.3 버전이 이에 해당합니다.
많은 기업들이 완전한 오픈소스라는 이유로 호튼웍스로 변경하고 있습니다. 특정 공급사에 메이지 않는 요소를 전략적으로 굉장히 중요하게 생각하기 때문입니다. 이러한 이유로 현재 MS, IBM, EMC 등의 회사들이 자사의 배포판에서 호튼웍스 배포판을 기반으로 변경했습니다. :)
안녕하십니까. 호튼웍스코리아 주식회사 최종욱 기술이사입니다. 현재 본사 Apache Hive 개발팀에 소속되어 실제 제품을 개발하고 있습니다. 완전한 오픈소스로 기업용 기능을 제공하는 하둡에 대한 내용을 알려드리도록 하겠습니다. 감사합니다.