클라우드 스토리지 또는 On-Prem.으로 사용하시는 DB 서버 등과 연결을 위한 커넥터를 제공하며, 이를 통해서 손쉽게 연결, 분석이 가능합니다.
Dataiku는 데이터 사이언스 전체 영역을 커버합니다. 수집된 데이터가 저장된 데이터소스의 연결, 전처리, 모델링, 학습, 배포, 모니터링, 시각화 등 전체의 영역을 커버합니다.
데이터 사이언스의 전체 영역은 데이터 수집, 분석, 정제, 모델개발, 학습, 배포 등 넓은 영역이 있고, 이러한 영역을 프로세스화하여 관리할 수 있도록 거버넌스를 적용할 수 있는데, CDS는 데이터의 분석, 정제 등 부분들과 AutoML을 통한 모델 개발 및 학습 정도가 일반적인 영역입니다.
통계적인 기법 등 데이터를 분석할 수 있는 이론적인 소양이 있으면 좋습니다. 이러한 지식을 기반으로 쉽게 사용이 가능한 솔루션이 더해지면, 보다 빠르게 CDS를 양성하실 수 있습니다.
Dataiku는 매월 무료 핸즈온을 제공하고 있으며, 이를 통해 클릭 기반으로 데이터의 분석부터 모델링 배포까지를 진행하고 이해할 수 있습니다. 한국의 Dataiku 파트너들도 관련 교육 등을 제공하고 있습니다.
Dataiku는 AutoML로 모델링을 해주며, 사용자가 하이퍼파라미터의 조정과 피처핸들링 등을 통해서 최적화 할 수 있는 기능을 제공하고 있습니다.
생성형 AI가 정확한 결과를 도출할 수 있도록 튜닝을 진행하는 것이 프로프트 엔지니어링입니다. 이 부분을 데이터사이언티스트가 직접 할 수도 있고, 프롬프트 엔지니어링에 특화된 엔지니어가 진행을 하는 것도 좋을 것 같습니다.
프롬프트 엔지니어링은 지시에 따라 정확하게 동작할 수 있도록 하는 것이기 때문에 CDS와는 차이가 있습니다. LLM을 잘 연결해서 사용할 수 있다면, CDS가 클릭을 하는 것보다 텍스트 형태의 명령을 통해서 더욱 편하게 업무를 수행할 수 있습니다.
데이터 마트와 같은 가공된 데이터의 거래를 위한 기능은 현재 로드맵에는 없으나, CDS가 보다 쉽게 사용할 수 있는 템플릿 형태의 비즈니스 솔루션과 플러그인을 제공하고 있습니다.
현업 담당자들이 Computer Science에 대한 지식을 완벽이 가지는 것은 어려운 일입니다. 일반적으로 기본적인 통계분석에 대한 지식을 기반으로 한 데이터의 분석 부분 위주로 진행을 많이 하고 계십니다. Dataiku와 같이 클릭 기반의 쉬운 사용이 가능한 솔루션을 사용하면, 코딩을 하지 못해도, 전문적인 지식을 완벽하게 보유하지 않더라고 데이터 분석 및 준비 과정들과 AutoML을 통한 모델링이 가능합니다.
도메인의 전문가는 현업담당자이고, 외부 인원은 도메인 지식이 없는 경우 괴리가 발생할 수 있습니다. 현업담당자가 도메인 지식을 기반으로 예측을 위한 목적의 데이터를 준비하는 과정에 대해서 쉽게 수행이 가능한 플랫폼을 기반으로 CDS를 양성하고, 조직내 전문가와 함께 협업을 진행하는 것이 이상적입니다. 로드맵은 조직의 상황에 따라 다르기 때문에, 별도로 요청을 주시면, Dataiku와 함께 방안을 논의할 수 있습니다.
안녕하세요.