안녕하십니까. 앤시스 코리아 양경모입니다.
1. 인공지능 붐이 일어나기 전과 후에도 여러 이론과 방법론이 발전하고 있습니다. Non-parametric 방법론은 그 중 하나입니다. 이 방법론은 데이터에 대한 가정 없이 모델을 구축하는 방식으로, 특히 데이터의 분포를 가정하지 않는 통계적 방법을 말합니다.
여기서 몇 가지 주목할만한 non-parametric 이론과 방법론을 소개해 드리겠습니다:
- K-최근접 이웃 (K-Nearest Neighbors, KNN)
- 커널 밀도 추정 (Kernel Density Estimation, KDE)
- 비모수적 가설 검정 (Non-parametric Hypothesis Testing)
- 부트스트레핑 (Bootstrap)
- 로우스톤 테스트 (Runs Test)
2. 현재 인공지능 분야에서 가우시안 프로세스와 베이지안 프로세스는 주목받고 있는 중요한 기술입니다.
가우시안 프로세스 (Gaussian Process):
가우시안 프로세스는 확률론적 모델링 방법으로, 불확실성을 추정하고 함수를 모델링하는 데 사용됩니다.
하이퍼파라미터 최적화에 활용되며, 목표 함수의 불확실성을 고려하여 최적값을 찾습니다.
예를 들어, 인공지능 모델의 하이퍼파라미터 조정에 활용됩니다.
베이지안 프로세스 (Bayesian Process):
베이지안 프로세스는 베이지안 확률론에 기반한 순차적 최적화 전략을 사용합니다.
목표 함수의 불확실성을 추정하고, 이를 기반으로 하이퍼파라미터 최적값을 찾아냅니다.
정보보안 분야에서도 AISecurity와 관련하여 베이지안 기술이 적용 가능성을 가지고 있습니다.
이러한 기술들은 인공지능 붐에서 중요한 역할을 하고 있으며, 더 많은 연구와 응용이 기대됩니다.
가우시안 프로세스(Gaussian Process, GP)는 확률적인 모델링 방법으로, 데이터의 분포를 추론하는데 사용됩니다. 이론적으로는 오래전부터 존재했지만, 딥러닝이 활성화되면서 다양한 차이점이 나타났습니다.
딥러닝과 가우시안 프로세스의 차이점:
- 딥러닝은 신경망 구조를 사용하며, 많은 뉴런과 레이어로 복잡한 함수를 근사합니다.
- 가우시안 프로세스는 확률적인 함수를 직접 모델링하며, 평균 함수와 공분산 함수를 사용합니다.
- 딥러닝은 대량의 데이터를 필요로 합니다. 많은 샘플이 있을 때 성능이 향상됩니다.
- 가우시안 프로세스는 적은 데이터로도 유연하게 모델링할 수 있습니다.
- 가우시안 프로세스는 불확실성을 확률적으로 다루기 때문에 예측에 대한 불확실성을 제공합니다.
- 딥러닝은 불확실성을 직접 다루지 않고, 예측값만 제공합니다.
- 가우시안 프로세스에서 커널 함수는 데이터 간의 상관 관계를 정의합니다.
딥러닝에서는 커널 함수 대신 활성화 함수를 사용합니다
RNN은 시계열 데이터와 순차적인 데이터를 모델링하는데 사용됩니다.
가우시안 프로세스는 시간에 따른 불확실성을 다루는데 유용합니다.
따라서 RNN과 가우시안 프로세스는 서로 보완적인 역할을 합니다.
현재 딥러닝에서 non-parametric이라는 용어는 unsupervised 학습과 관련하여 사용됩니다. 이 개념은 라벨 없는 데이터를 활용하여 모델을 훈련하는 방식을 의미합니다. Non-parametric 방법은 파라미터의 수를 고정하지 않고 데이터에 따라 유연하게 모델을 구성하는 방식입니다. 이는 클러스터링 (예: K-means)이나 차원 축소 (예: PCA)와 같은 전통적인 비지도 학습 방법과도 관련이 있습니다.
시계열과 가우시안 프로세스는 다른 개념입니다. 시계열은 시간에 따라 변화하는 데이터를 다루는 것으로, 예측, 분류 또는 패턴 인식과 같은 작업에 사용됩니다. 반면 가우시안 프로세스는 확률적 모델로, 데이터의 분포를 모델링하고 예측하는 데 사용됩니다. 이 두 개념은 서로 다른 방식으로 코딩되며, 시계열 데이터를 다루는 경우 시계열 모델링 기법을 사용하고, 가우시안 프로세스를 적용할 때는 해당 프로세스를 구현하는 방식을 따릅니다.
[질문] 업그레이드나 패치시 다운타임을 제로화 하기 위해서 필수요소가 궁금합니다.
서비스 중단 없는 클라우드 운영을 위한 전략으로는 크게 2가지가 있다고 생각합니다.
1. Blue-Green Deployment
두 개의 별도 환경을 준비하여 한 쪽은 실제 서비스, 다른 한 쪽은 업데이트를 진행합니다. 업데이트가 완료되면 트래픽을 업데이트된 새 환경으로 전환합니다.
2. Canary Release
새로운 버전을 일부 사용자에게만 먼저 제공하여 검증하고 이 결과를 분석하여 문제가 없는 것을 확인한 후 전체 사용자에게 업데이트를 확장합니다.
[질문] App Modernization을 통해 TCO 절감을 위해서 구체적으로 거쳐야 하는 단계 내지는 과정은 무엇이 있는지요?
단기적인 절감보다는 장기적인 관점에서 진행을 하면 명확한 TCO에 대한 절감을 목표로 해야한다고 생각합니다.
1. 현재 상태 평가
기존 시스템 분석: 현재 사용중인 애플리케이션과 인프라의 특성과 구조를 파악합니다.
비즈니스 요구사항 분석: 비즈니스 목표와 요구사항을 정확히 이해하고 정리합니다.
2. 전략 수립 및 로드맵 개발
3. 아키텍처 설계 및 데이터 마이그레이션 전략 수립
4. 개발 및 테스팅 환경 구현
5. 운영전환 및 배포,운영인력 훈련 및 지원
6. 운영환경 유지관리 및 최적화
이러한 단계를 거치면서 비용, 시간, 자원 등을 절약하고, 시스템의 효율성과 유연성을 향상시킬 수 있어 TCO를 절감할 수 있습니다.
답변 감사합니다. 답변을 보고 추가로 문의 드리자면, AM을 통해 장기적인 관점에서 TCO 절감이 현행 인프라 대비 얼마나 개선될 수 있는지 어떻게 Estimate 하고 의사결정권자를 설득할 수 있을지 궁금합니다.
1. 오픈소스 활용 개발 or API 연결 개발 둘 중 어느 방식일까요? 2. 회사의 정보를 활용해서 자체 LLM 서비스를 구축하기 위해서 문서(PPT, 엑셀, 워드, PDF, 메일 등)를 파인튜닝 하려고 하면 어떤 방식으로 선행 작업이 진행되어져야 할까요?
[질문] 몽고DB가 스케일아웃을 샤딩을 통해 효과적으로 성능개선을 이루는데 스케일아웃을 구현하는 방식등에서 타 NOSQL과 어떤 차이가 있고 성능상 어느정도 차별화가 되는지 궁금합니다
MongoDB는 샤딩시 여러 기준으로 샤딩을 할 수 있습니다. Range , hash , zone 기반이 가능하고, online 을 이용해 sharding 키를 변경 , 재 생성할 수 도 있습니다.
[질문] RDB는 정규화로 인해 성능, 효율성 문제가 있어 역정규화 과정이 필요하게 되는데... NoSQL도 역정규화 과정이 요구되는지 궁금합니다.
MongoDB는 디자인 패턴 개념이 있습니다. RDBMS 스키마 디자인 하는것처럼 MongoDB도 여러가지 디자인 패턴을 사용할 수 있습니다.
[질문] 데이터사이언스가 분석시 전처리과정과 정규화 과정에 가장 많은 시간을 할내하는데 몽고 db 를 사용하면 이 기간을 줄일수 있는지요 ?
기존에 Rigid한 데이터 모델이 여러 소스에서 오고 , 이를 모아 전처리하는 부분에서 MongoDB Document Model이 적합합니다. 이를 통해 전처리 시간을 줄일 수 있습니다.
[질문]
질문 AI 모델의 하이퍼파라미터를 저장하고 관리할때
성능향상을 주기위해 적용되는 기술이 별도로 있는지 궁금하고
풀 텍스트 검색 기능은 AI 모델의 결과를 검색하고 분석하는 데
부하를 주게 되는지 혹은 부하가 있어도 해소하는 기법이 있는지요
MongoDB Atlas Search의 경우 해당 이슈를 해결 하기 위해 검색 전용 노드를 구성 하여 해결 할 수 있습니다.
[질문]수집된 IOT데이터 분석을 통한 가시성 확보와 분석 속도를 높이고, 데이터 융합과 관련하여 RDBMS와 비교 시, NoSQL 몽고DB의 효율은 얼마나 높은지요?
신규로 제공되어지는 Time series collection 사용시 storage 의 효율은 90% 이상 좋아집니다.
[질문] RDBMS로 분산 처리시 RDBMS는 READ하는 부분은 여러 노드를 둘 수 있지만, WRITE는 하나 뿐이기에 이 부분이 병목으로 작용하여 성능이 안좋다고 하는데, 일관성 부분만 포기하면 RDBMS도 WRITE 노드를 여러개 두어서 보안이 가능한지와 몽고DB에서는 분산처리 성능개선이 어떻게 이루어지는지요?
Write 에 대한 처리는 샤딩을 추가 함으로 처리량을 증가시킬 수 있습니다. RDBMS 여러개의 node에서 write 시에는 write conflict을 고려하셔야 하는 제약이 있습니다.
[질문] 몽고DB가 AI 서비스에 적용될 때, 일반 DB나 비정형 타 DB 대비 성능면에서 얼마나 우위에 있나요?
유연한 json document를 강점이라고 보시면 됩니다. AI training을 위해서 data lake라는 개념을 개발하게 됐는데, 정형화된 RDB만으로 ML training이 불가능하기 때문에 비정형/반정형 데이터를 자유롭게 저장할 수 있는 DL를 도입하게 되었습니다. DL의 제약은 object storage나 plain file들이기 때문에 OLTP에 비해 성능이 떨어져 실시간 AI 서비스 구성에 제약이 있습닌다. MDB의 경우 DataBricks나 BigQuery등과 결합해서 실시간 AI 모델링을 가능하게 하기도 하고, modeling 결과를 flexible model인 json에 저장할 수 있는 장점이 있다고 볼 수 있습니다
[질문] 몽고DB는 운영중인 RDB 환경을 몽고DB 아틀라스로 무중단 이전이 가능한지 궁금하고, 데이터 분석 후 아틀라스로의 원활한 마이그레이션을 위한 연속 동기화 작업을 실행할 수 있는지도 궁금합니다.
MDB6.0부터 relational migrator라는 툴이 preview로 소개되었고 1년 이상 필드에서 검증/보완을 통해 7.0에 GA되었습니다. oracle, mysql, mssql, 등 다양한 RDB의 data (무중단) migration은 물론이고 새 data model을 위해 기존 application code(java, c#, ...)에 적용가능한 model code를 생성해 주는 기능이 있습니다.
[질문]Non parametric에 대해 공부중입니다. 처음 접하는 개념이라 질문사항이 몇가지가 있습니다.
1) 인공지능 붐이 일어나기 전과 후 non parametric에서 대세가 되고 있는 이론이 있나요?
2) 혹시 가우시안과 베이지안 프로세스가 현재 인공지능 붐의 대세인가요?
3) 가우시안 프로세스는 오래전에 나온 이론인데, 딥러닝이 활성화되면서 예전과 어떤 차이점이 있는지 궁금합니다.
RNN등으로 인해, 산출되는 값이 많이 바뀌기 시작한 것인가요?
추가로 질문하나만 더 드립니다. 기존에 non parametric이라고 칭하던게 현재 딥러닝에서 구사하는 unsupervised 개념이 맞는 것인지요? 또한 시계열과 가우시안 프로세스는 같은 방식의 코딩인가요?
성실한 답변 부탁드립니다.