이번에 소개드리는 HDS의 솔루션의 경우 일반적인 백업 방안(풀백업, 증분백업) 방식이아닌 파일에 대한 변경이 있을 때 마다 새로운 버전을 생성하는 버저닝 기능으로 백업을 수행합니다.(백업 속도에 대한 이슈 없음) 복원에 대해서는 복원을 원하는 시점으로 모든 파일의 버전을 변경 가능합니다.
랜섬웨어를 막는다... 라기 보다는 랜섬웨어에 감염되었을때 빠른시간내에 복구하기위한 솔루션이라고 보면 될까요?
장기 보관이 필요한 기업의 중요한 데이터에 대하서는 위변조 방지를 통해 데이터 자체에 Read/Write가 불가능 하게 만드는 방식으로 랜섬웨어에 대한 원천 방어를 수행합니다. 변경이 많고 사용자간 공유가 많은 파일에 대해서는 버저닝 기능을 통해 복구기능을 제공하는 솔루션입니다.
개인PC에 있는 파일을 위변조 방지나 버저닝 기능을 통해 관리가 된다면, 어떤 방식을 백업을 할것인지는 사용자가 판단을 해야하는가요? 그렇지 않다면 관리정책 설정을 통해 가능한가요?
HCP AW는 중앙 저장장치인 HCP와 개인PC의 특정 폴더를 동기화 시키는 기능을 제공하고 있습니다. 즉, 개인PC의 특정 폴더를 HCP와 동기화를 시킨다면, 동기화된 HCP 내의 파일은 자동으로 버저닝이 적용이 됩니다. 이 버저닝된 파일을 설정해 놓은 기간 동안 보관이 되니다. 개인PC에 별도 보관 중인 파일이 버저닝이 되는 것이 아닙니다.
(질문) 설계 담당 엔지니어가 직접 중복제거, 아웃라이어 제거, 데이터 보완 및 검증 과정을 거쳐 정제 작업을 히는 경우 시간이 많이 소요되는데, 이 경우 시간을 획기적으로 단축될 수 있는 방안으로 제시해주실 것은 무엇이 있습니까?
보통 데이터 preparation 단계를 데이터사이언스 워크스테이션에서 실행하는 경우가 많은데, 그린플럼의 기본적인 쿼리 사용만으로 병렬처리가 되어 데이터 이동없이 이런 전처리 시간을 단축시켜줍니다. 필요시 PL/R, PL/Python으로도 SQL 쿼리에서 제공하지 않는 로직도 병렬 처리됩니다.
[질문] 그린플럼의 MPP 아키텍처는 하나의 서버 안에서 여러개의 DB 프로세스가 독립적으로 병렬 처리가 가능한지 궁금합니다.
그린플럼은 여러개 서버를 통합적으로 병렬처리하고, 또한 한 서버 안에 보통 8개 DB 프로세스가 있습니다. 그래서 4개 데이터 노드일 경우에는 4*8 해서 32개 DB 프로세스가 구동된다고 보시면 됩니다. 8노드이면 8*8 = 64개 프로세스가 독립적으로 수행됩니다.
[질문] 그렇다면 서버의 CPU 갯수가 성능에 미치는 영향이 좀 크겠네요? 처리하는 데이타의 양을 생각하면 GPU 활용이 성능에 미치는 영향은 어떠한가요?
[질문]MPP기반의 분석툴이면 다양한 원본소스들의 데이타가 적재된 데이터레이크의 대용량데이터를 분석을 위해서 COPY에서 사용해야할것 같은데, 분석 처리에 시간이 많이 걸리지 않을까요? 외부저장소를 연결하여 사용도 가능할까요?
Copy 대신 PXF를 이용해서 데이터 조회/적재를 합니다. 아래 링크 참조 부탁드립니다.
http://gpdbkr.blogspot.com/search/label/GPDB6_PXF_S3%EC%97%B0%EB%8F%99
[질문] 데이터레이크와 그린플럼 간의 데이터 연계에는 pxf라는 기술이 사용되는 것으로 아는데 이 pxf기술에 대해 간략하게 설명 부탁드립니다.
http://gpdbkr.blogspot.com/search/label/GPDB6_PXF_S3%EC%97%B0%EB%8F%99
오 아주 유익한 정보가 많네요..그린플럼에 대해 좀 더 자세히 알수 잇을 것 같네요. 감사합니다.
[질문] 코딩을 잘 모르더라도 그림플럼을 이용해서 데이터 분석이 가능한지 궁금하고, 비전공 신입직원이 사용법을 배우려면 권장되는 시간은 얼마나 될까요?
프로그래머가 만든 프로그램을 Greenplum에 적용 시킬 수 있다는 것을 강조 드리며, 습득력은 개인역량에 따라 다를것 같습니다.
[질문]In-Database 에서 데이터의 이동 없이 초대용량 데이터를 효율적으롷 분산병렬처리로 분석, 기계학습을 하기위해 가장 선행되고 중요한 선작업은 어떤게 필요한지요?
Data 저장단계에서 MPP 서버 전체에 DATA부분부터 잘 분산되어 저장되어야 됩니다.
[질문] 타 데이터 분석 플랫폼과 비교해서 가장 강점은 무엇인가요?
1.성능입니다. 모든 것이 병렬 처리됩니다. 쿼리 병렬 처리, 적재 병렬 처리, Python, R 도 병렬처리가 됩니다.
2.베어메탈, 퍼블릭 클라우드, 프라이빗 클라우드에서도 사용할 수 있습니다.
[질문]그린플럼 데이터 플랫폼으로 일반적인 분석 방법에서 대용량 분석이 힘들고 데이터가 존재하는 곳에서 분석 서버(SAS, Python)으로 데이터 전송 필요하고, 대용량이기 때문에 서버의 메모리 및 CPU 한계 발생하는것에 대한 해결방안이 궁금합니다.
SAS, 파이썬 같은 분석 서버에서는 한개의 서버에서 수행되지만, 파이썬 스크립트를 Greenplum으로 실행하게 되면 여러 노드에서 병렬 수행되기 때문에 분산 처리할 수 있어 한 서버의 메모리, CPU 한계를 해결할 수 있습니다.
no-code가 이론적으로 아주 유용하고 개발자가 아닌 일반 업무 전무가가 스스로 팰용한 프로그램을 만들면서 필요한 리즈를 충분하는데 아주 효과적인데 깊이 들어가면 또 개바이 필요한데 이럴때는 개발을 할 수 있는 하이브리드형태의 no-code가 필요할 것 같은데 kt 솔루션은 이런 형태를 지원하는것인가요?
메타버스 서비스, 플랫폼 등 실제 사회/인프라/소셜관계를 반영하는 세계관 또는 서비스를 구현하기 위해서는 오감을 자극할 수 있는 360도 VR, 스테레오 사운드 등 Reality 기술이 중요해 보입니다만, 데이터 경량화, 어지러움 등 경제적 / 사용자 경험 이슈를 극복하는 것이 쉽지 않아 보입니다. 이런 기술적 완성도 미확보 단계에서도 재미적 요소 제페토와 같은 메타버스 서비스 외 사업이 빠른 시일 내 성장할 것이라고 생각하시는지, 기술역량확보보다 중요한 것이 무엇이라고 생각하시는지요?
[질문] 챗봇이 실제로 얼마나 효과적으로 고객 요청에 응대하는지 측정하기가 쉽지 않다고 느낄 때가 많이 있습니다. 코어AI는 고객들 중에서 제품에 실제로 관심을 가지고 있는 고객을 정확히 찾을 수 있도록 돕는다고 하셔서 고객 응대의 효과성을 측정하는 방법이 함께 제공되는 것 같은데 어떤 방법이 가능한지 그리고 코어AI 데모를 진행하는 동안 그러한 효과성의 측정 결과를 제공받을 수 있는지 궁금합니다.
대화형 AI를 통해 직접 사용자가 입력한 자연어들을 분석할 수 있게 Kore.ai 에서는 Conversation Dashboard를 지원하고 있습니다. 실제 사용을 통해 사용자들이 입력한 자연어들을 분석하여 고객 응대의 효과를 측정하고 효과가 좋지 않다면 Update를 통해 고객 요청을 받아들일 수 있습니다.
[질문] 답변 주셔서 고맙습니다. 고객 요청을 받아들이기 위한 Update는 일반적으로 어떤 형태로 진행이 되나요?
랜섬웨어 대비하여 백업을 하는 경우 백업속도와 복원속도가 관건이라 생각합니다. 이 부분에 어떤 강점이 있는지요?