문제마다 달라질 것이기 때문에 정확한 비율로 얘기하기는 어렵겠지만 데이터파이프라인의 경우가 일반적으로 훨씬 많은 리소스가 소요됩니다. 데이터 파이프라인에서 관리해야 하는 데이터의 양이 더 많기도 하고 데이터의 소스가 추가되거나 운영중 프로그램 변경으로 인해 유입되는 데이터가 약속된 형태에서 바뀌는 등 많은 이슈들이 발생하게 되고 이를 모두 관리하는 데에 많은 툴과 시간을 투자하시게 됩니다.
답변 감사합니다. 현재 소속된 조직에서도 단기적 성과물에 집착해서 앞단인 Data Pipeline에 대해서는 등한시하는 상황입니다. 그래서 실제 실무자들은 앞단에 발목이 잡히거나 일을 위한 일을 양산하고 있지요...
[질문] AI학습이나 빅데이터 분석을 위한 인프라가 퍼블릭 클라우드에 구성되어 있는지요? 예를 들어 엔비디아 테슬라 GPU인 V100이 장착된 GPU 전용서버라던지, 빅데이터 분석을 위한 하둡기반의 인프라 스트럭처가 구성되어 있는지? 이런 서비스 제공이 가능한지요? 또한 초기 Source 데이터나 input 데이터 (기초 데이터.. 센서 및 ODS 영역)를 퍼블릭 클라우드로 데이터를 전송해야 하는데, 이 경우 보안 및 네트워크 트래픽의 문제가 많을것으로 생각됩니다. 이런 전반적인 서비스가 가능한지요?
Azure 에는 분석을 위한 플랫폼과 도구가 제공되며, 테슬라GPU, 하둡기반 모두 구성이 가능합니다. IaaS, PaaS 고객이 원하는 형태로 구축이 가능합니다.
데이터 전송 관련부분은 ExpressRoute 기능을 이용하여 일정한 속도를 보장받을 수 있습니다.
[질문] 흔히들 얘기하는게 Data Pipeline 단을 구성하는게 전체 업무의 대부분을 차지한다고 얘기합니다. 오늘 주제인 배포와 운영 관점에서 두 Pipe Line 구성에 어느 정도 비율로 Resource가 할당되어야 할까요?