안녕하십니까. 앤시스 코리아 양경모입니다.
1. 인공지능 붐이 일어나기 전과 후에도 여러 이론과 방법론이 발전하고 있습니다. Non-parametric 방법론은 그 중 하나입니다. 이 방법론은 데이터에 대한 가정 없이 모델을 구축하는 방식으로, 특히 데이터의 분포를 가정하지 않는 통계적 방법을 말합니다.
여기서 몇 가지 주목할만한 non-parametric 이론과 방법론을 소개해 드리겠습니다:
- K-최근접 이웃 (K-Nearest Neighbors, KNN)
- 커널 밀도 추정 (Kernel Density Estimation, KDE)
- 비모수적 가설 검정 (Non-parametric Hypothesis Testing)
- 부트스트레핑 (Bootstrap)
- 로우스톤 테스트 (Runs Test)
2. 현재 인공지능 분야에서 가우시안 프로세스와 베이지안 프로세스는 주목받고 있는 중요한 기술입니다.
가우시안 프로세스 (Gaussian Process):
가우시안 프로세스는 확률론적 모델링 방법으로, 불확실성을 추정하고 함수를 모델링하는 데 사용됩니다.
하이퍼파라미터 최적화에 활용되며, 목표 함수의 불확실성을 고려하여 최적값을 찾습니다.
예를 들어, 인공지능 모델의 하이퍼파라미터 조정에 활용됩니다.
베이지안 프로세스 (Bayesian Process):
베이지안 프로세스는 베이지안 확률론에 기반한 순차적 최적화 전략을 사용합니다.
목표 함수의 불확실성을 추정하고, 이를 기반으로 하이퍼파라미터 최적값을 찾아냅니다.
정보보안 분야에서도 AISecurity와 관련하여 베이지안 기술이 적용 가능성을 가지고 있습니다.
이러한 기술들은 인공지능 붐에서 중요한 역할을 하고 있으며, 더 많은 연구와 응용이 기대됩니다.
가우시안 프로세스(Gaussian Process, GP)는 확률적인 모델링 방법으로, 데이터의 분포를 추론하는데 사용됩니다. 이론적으로는 오래전부터 존재했지만, 딥러닝이 활성화되면서 다양한 차이점이 나타났습니다.
딥러닝과 가우시안 프로세스의 차이점:
- 딥러닝은 신경망 구조를 사용하며, 많은 뉴런과 레이어로 복잡한 함수를 근사합니다.
- 가우시안 프로세스는 확률적인 함수를 직접 모델링하며, 평균 함수와 공분산 함수를 사용합니다.
- 딥러닝은 대량의 데이터를 필요로 합니다. 많은 샘플이 있을 때 성능이 향상됩니다.
- 가우시안 프로세스는 적은 데이터로도 유연하게 모델링할 수 있습니다.
- 가우시안 프로세스는 불확실성을 확률적으로 다루기 때문에 예측에 대한 불확실성을 제공합니다.
- 딥러닝은 불확실성을 직접 다루지 않고, 예측값만 제공합니다.
- 가우시안 프로세스에서 커널 함수는 데이터 간의 상관 관계를 정의합니다.
딥러닝에서는 커널 함수 대신 활성화 함수를 사용합니다
RNN은 시계열 데이터와 순차적인 데이터를 모델링하는데 사용됩니다.
가우시안 프로세스는 시간에 따른 불확실성을 다루는데 유용합니다.
따라서 RNN과 가우시안 프로세스는 서로 보완적인 역할을 합니다.
현재 딥러닝에서 non-parametric이라는 용어는 unsupervised 학습과 관련하여 사용됩니다. 이 개념은 라벨 없는 데이터를 활용하여 모델을 훈련하는 방식을 의미합니다. Non-parametric 방법은 파라미터의 수를 고정하지 않고 데이터에 따라 유연하게 모델을 구성하는 방식입니다. 이는 클러스터링 (예: K-means)이나 차원 축소 (예: PCA)와 같은 전통적인 비지도 학습 방법과도 관련이 있습니다.
시계열과 가우시안 프로세스는 다른 개념입니다. 시계열은 시간에 따라 변화하는 데이터를 다루는 것으로, 예측, 분류 또는 패턴 인식과 같은 작업에 사용됩니다. 반면 가우시안 프로세스는 확률적 모델로, 데이터의 분포를 모델링하고 예측하는 데 사용됩니다. 이 두 개념은 서로 다른 방식으로 코딩되며, 시계열 데이터를 다루는 경우 시계열 모델링 기법을 사용하고, 가우시안 프로세스를 적용할 때는 해당 프로세스를 구현하는 방식을 따릅니다.
[질문]뉴타닉스 사용을 할 경우 효율적이겠지만 기술종속이 발생할것 같은데, 실제 관리자가 빠르게 학습하기 위한 방법이 있을가요
Nutanix의 가장 큰 장점은 '선택의 자유'를 제공한다는 것입니다. 기술 종속을 가장 최소화할 수 있는 솔루션 중 하나입니다. 쉽고 직관적인 운영 관리를 하실 수 있으며, 매달 부트캠프 운영 및 온라인 튜토리얼 세션 또는 유료 기술 교육에 참여하실 수 있습니다.
통합 관리도구인 Prism은 직관적인 UI로 구성되어 있어 손쉽게 관리할 수 있으며, 구축 이후 운영자를 위한 교육을 별도 진행하고 있습니다.
[질문] 뉴타닉스 AHV 위에 다른 가상화 HV가 올라간다면 중첩 가상화 형식으로 올라가는 건가요? Vxrail 이나 일반 뉴타닉스 AHV 처럼 베어메탈 구조에서 실행되는 것과 성능면에서 차이가 발생하나요?
AHV는 VMware ESXi와 같은 베어메탈 베이스로 구성됩니다. 이중으로 HV가 구성되지는 않습니다.
[질문]뉴타닉스에 외장(emc,ibm,dell..) 스토리지 연결 구성하여 사용 가능한가요?
HCI 기술은 외장 스토리지 연결 방식에 단점을 제거 하기 위합니다. iscsi 방식으로 VM으로 연결은 제공하고 있습니다.
Nutanix HCI 기술이 기존 외장 스토리지 기반의 복잡한 가상 인프라를 단순화하는 것이므로 공유 스토리지와의 연결은 지원하지 않습니다. 오히려 반대의 경우로 Nutanix의 스토리지 볼륨을 다른 물리서버 또는 가상 인프라의 스토리지로 활용 가능합니다.
[질문] 배포와 provisoning이 하루라는 건 무슨 의미인가요? 이건 분 혹은 초 단위로 가능해야 하는 것 아닌가요?
컨테이너와 달리 VM은 운영체제와 App, Data를 모두 포함하므로 배포되는 수량에 따라 수 분~수 시간이 소요됩니다. Nutanix는 이러한 VM 기반의 배포 환경에서 자체 기술을 사용하여 빠른 시간에 대량의 VM 배포를 제공합니다.
서비스 업무 배포(Web,WAS,DB 등)를 말씀드리는 내용입니다. 해당 서비스를 배포하기 위해서는 서버, 네트워크, 스토리지 구성이 필요한데, Nutanix 사용하면 신속한 배포를 제공하고 있습니다.
아, 그러니까 단순한 EC2 같은 것의 provision 뿐 아니라, WAS, DB, super pod, pods를 포함한 완결된 전체 환경의 프러비져닝이란 말씀으로 이해하겠습니다.
[질문] 그린플럼이 postgresql 기반의 DB근간인데, 오픈소스 버전보다 추가로 지원하는 기능들이 궁금합니다
Greenplum도 오픈소스, 상용버전 두개가 있습니다. 오픈소스는 Greenplum DB엔진이며, 상용버전은 DB엔진과, 모니터링 툴, kafka/spark 등의 커넥터 들을 지원합니다.
[질 문] 포스트그레SQL과 그린플럼의 차이점은 무었인가요?
Postgresql은 OLTP용 Database이며, 그린플럼은 Postgresql을 병렬로 처리하는 솔루션입니다. 그래서 Greenplum 코어 엔진은 postgresql 를 이용합니다.
[질문]Non parametric에 대해 공부중입니다. 처음 접하는 개념이라 질문사항이 몇가지가 있습니다.
1) 인공지능 붐이 일어나기 전과 후 non parametric에서 대세가 되고 있는 이론이 있나요?
2) 혹시 가우시안과 베이지안 프로세스가 현재 인공지능 붐의 대세인가요?
3) 가우시안 프로세스는 오래전에 나온 이론인데, 딥러닝이 활성화되면서 예전과 어떤 차이점이 있는지 궁금합니다.
RNN등으로 인해, 산출되는 값이 많이 바뀌기 시작한 것인가요?
추가로 질문하나만 더 드립니다. 기존에 non parametric이라고 칭하던게 현재 딥러닝에서 구사하는 unsupervised 개념이 맞는 것인지요? 또한 시계열과 가우시안 프로세스는 같은 방식의 코딩인가요?
성실한 답변 부탁드립니다.