안녕하십니까. 앤시스 코리아 양경모입니다.
1. 인공지능 붐이 일어나기 전과 후에도 여러 이론과 방법론이 발전하고 있습니다. Non-parametric 방법론은 그 중 하나입니다. 이 방법론은 데이터에 대한 가정 없이 모델을 구축하는 방식으로, 특히 데이터의 분포를 가정하지 않는 통계적 방법을 말합니다.
여기서 몇 가지 주목할만한 non-parametric 이론과 방법론을 소개해 드리겠습니다:
- K-최근접 이웃 (K-Nearest Neighbors, KNN)
- 커널 밀도 추정 (Kernel Density Estimation, KDE)
- 비모수적 가설 검정 (Non-parametric Hypothesis Testing)
- 부트스트레핑 (Bootstrap)
- 로우스톤 테스트 (Runs Test)
2. 현재 인공지능 분야에서 가우시안 프로세스와 베이지안 프로세스는 주목받고 있는 중요한 기술입니다.
가우시안 프로세스 (Gaussian Process):
가우시안 프로세스는 확률론적 모델링 방법으로, 불확실성을 추정하고 함수를 모델링하는 데 사용됩니다.
하이퍼파라미터 최적화에 활용되며, 목표 함수의 불확실성을 고려하여 최적값을 찾습니다.
예를 들어, 인공지능 모델의 하이퍼파라미터 조정에 활용됩니다.
베이지안 프로세스 (Bayesian Process):
베이지안 프로세스는 베이지안 확률론에 기반한 순차적 최적화 전략을 사용합니다.
목표 함수의 불확실성을 추정하고, 이를 기반으로 하이퍼파라미터 최적값을 찾아냅니다.
정보보안 분야에서도 AISecurity와 관련하여 베이지안 기술이 적용 가능성을 가지고 있습니다.
이러한 기술들은 인공지능 붐에서 중요한 역할을 하고 있으며, 더 많은 연구와 응용이 기대됩니다.
가우시안 프로세스(Gaussian Process, GP)는 확률적인 모델링 방법으로, 데이터의 분포를 추론하는데 사용됩니다. 이론적으로는 오래전부터 존재했지만, 딥러닝이 활성화되면서 다양한 차이점이 나타났습니다.
딥러닝과 가우시안 프로세스의 차이점:
- 딥러닝은 신경망 구조를 사용하며, 많은 뉴런과 레이어로 복잡한 함수를 근사합니다.
- 가우시안 프로세스는 확률적인 함수를 직접 모델링하며, 평균 함수와 공분산 함수를 사용합니다.
- 딥러닝은 대량의 데이터를 필요로 합니다. 많은 샘플이 있을 때 성능이 향상됩니다.
- 가우시안 프로세스는 적은 데이터로도 유연하게 모델링할 수 있습니다.
- 가우시안 프로세스는 불확실성을 확률적으로 다루기 때문에 예측에 대한 불확실성을 제공합니다.
- 딥러닝은 불확실성을 직접 다루지 않고, 예측값만 제공합니다.
- 가우시안 프로세스에서 커널 함수는 데이터 간의 상관 관계를 정의합니다.
딥러닝에서는 커널 함수 대신 활성화 함수를 사용합니다
RNN은 시계열 데이터와 순차적인 데이터를 모델링하는데 사용됩니다.
가우시안 프로세스는 시간에 따른 불확실성을 다루는데 유용합니다.
따라서 RNN과 가우시안 프로세스는 서로 보완적인 역할을 합니다.
현재 딥러닝에서 non-parametric이라는 용어는 unsupervised 학습과 관련하여 사용됩니다. 이 개념은 라벨 없는 데이터를 활용하여 모델을 훈련하는 방식을 의미합니다. Non-parametric 방법은 파라미터의 수를 고정하지 않고 데이터에 따라 유연하게 모델을 구성하는 방식입니다. 이는 클러스터링 (예: K-means)이나 차원 축소 (예: PCA)와 같은 전통적인 비지도 학습 방법과도 관련이 있습니다.
시계열과 가우시안 프로세스는 다른 개념입니다. 시계열은 시간에 따라 변화하는 데이터를 다루는 것으로, 예측, 분류 또는 패턴 인식과 같은 작업에 사용됩니다. 반면 가우시안 프로세스는 확률적 모델로, 데이터의 분포를 모델링하고 예측하는 데 사용됩니다. 이 두 개념은 서로 다른 방식으로 코딩되며, 시계열 데이터를 다루는 경우 시계열 모델링 기법을 사용하고, 가우시안 프로세스를 적용할 때는 해당 프로세스를 구현하는 방식을 따릅니다.
[질문]ios와 안드로이드 MDM관리 주요 차이점은 무엇인지요? IOS 단말기의 랜섬웨어 등 감염 관련하여 보안 위험도가 더 낮은지요? 통합 관리 시 안드로이드와 IOS의 유의사항과 제한점은 없는지요?
iOS와 타사OS의 MDM의 주요 차이점은 개인정보의 관리 여부가 가장 큽니다.
iOS의 경우 Apple의 정책을 따르기 때문에 MDM을 통해 관리받는 기기이더라도 사용자의 개인정보를 침해할 수 없습니다.
랜섬웨어 등의 경우 iOS의 샌드박싱구조상 보안 위험이 낮습니다.
또한 MDM을 통해 관리 받는 기기의 경우 추가적인 프로파일 설치를 제한 할 수 있습니다.
[질문] MDM을 도입해야 하지만 구축 프로젝트를 시작하기 어려운데.. 구축 프로젝트를 시작하기 전에 준비해야 할 사항과 고려해야 할 사항이 무엇이 있나요? 또, 프로젝트를 진행한다면 프로젝트 기간 중에 가장 어려웠던 점이 무엇인가요?
사내 기기 종류, 수량 / 보안정책 / 네트워크 등 많은 고려사항들을 한번에 컨설팅 해야하는 부분이 가장 Keypoint 이며 어려운 부분이라고 생각합니다.
비욘드테크는 이러한 과정에서 가장 효율적인 솔루션을 제공할 수 있습니다.
[질문]몽고DB에서 JSON 보다 더 많은 데이터 형식을 지원하기 위해 BSON을 사용하는것으로 아는데 이로 인한 다른 장점은 어떤게 있는지요?
BSON 포맷의 가장 큰 장점은 속도적인 측면에서 JSON에 비해 상대적으로 월등히 우수합니다.
그 주요 이유가 무엇인지 어쭤봐도 될까요?
JSON은 고급어인 Text이고, BSON은 기계어이기 때문입니다.
JSON으로 저장한다면 MongoDB 내부적으로 기계어로 변환하는 과정이 추가적으로 필요할 것이고 그렇기 때문에 속도가 더 느립니다.
하지만 BSON은 JSON에 비해 사이즈가 좀 더 크다는 단점이 있습니다.
그러나 readability의 측면에서 Json이 더 유리하지 않나요?
사용자가 데이터를 볼때는 JSON으로 변환을 해서 보여주지만 기본적으로 빅데이터를 적재하는 경우에서는 BSON으로 저장하는 것이 유리하지 않을까 합니다.
상기의 의견은 저의 개인적인 생각이라 정확한 의견은 벤더분께서 알려주시면 감사하겠습니다.
@MongoDB
[질문] 데이터 저장형식 자체가 키-밸류 이면 일반 관계형데이터베이스의 인덱스와 같은 거 아닌가요? 별도로 인덱싱을 해야하는지요? 이럴경우 관계형의 속성이 밸류에 포함되어 인덱싱을 해야한다면 일반 데이터베이스보다 더 많은 스토리지가 필요하지 않나요?
time series의 clustered index를 제외하면 기본적으로 동일한 btree index이고 table의 column대신 document의 field에 indexing을 하는 것이라 RDB와 차이가 있는건 아닙니다
[질문] 몽고DB와 같은 문서 저장소는 조인을 다소 제한적으로 지원하며 데이터 구조의 동적인 특성 때문에 외래 키의 개념이 없어서 몽고DB의 데이터 모델링은 역정규화로 흐르는 경향이 있습니다. 그렇다면 엄격하게 테이블 사일로에 데이터를 유지하는 대응 방안이 있다면 무엇이 있을까요?
말씀하신대로 RDB수준의 relational consistency를 DB차원에서 지원하지는 않습니다. app data modeling이 결정적인 요소가 되는데 multi-doc의 경우 ACID transaction을 활용하시는 방법을 활용할 수 있습니다
[질문] 몽고디비는 모든 형태( 파일,디비,오브젝트 등)의 데이터를 처리 가능하나요
MongoDB의 필드는 기본적으로 Object 타입이고, Document 최대 크기인 16MB를 넘는 파일은 GridFS라는 것을 통해 저장이 가능한걸로 알고 있습니다.
MongoDB의 커뮤니티 버전에서는 시계열데이터베이스 지원이 안되나요?
5.0 버전부터 커뮤니티, 엔터프라이즈 다 지원되는 걸로 알고 있습니다.
[질문]트랜잭션 지원이 RDBMS 대비 미약하고 제공되는 MapReduce 작업이 Hadoop에 비해 성능이 떨어지는것으로 아는데 어떻게 개선이 가능할지요
Tx지원이 RDBMS에 비해 떨어진다기보다 최고 성능을 낼 수 있는 Oracle과 동일한 수준의 snapshot isolation tx을 지원하고 있습니다. 기본철학이 ACID Tx을 최소화 하는 것이지 성능의 문제는 아닙니다. 실제 TPC-C benchmark의 경우 innoDB기반의 타 RDB Tx에 비해 동일 h/w 성능에서 Tx은 두 배 이상의 성능 결과를 가지고 있습니다.
Hadoop은 EDW를 타겟으로 하는 MapReduce를 지원하는 솔루션입니다. 그에 반해 MDB는 ODS나 DW를 대신하는 것을 타겟으로 하기 때문에 비교자체가 의미가 없을 것 같습니다.
그 정도 수준의 데이터처리는 MDB의 타겟이 아닙니다.
[질문]데이터 업데이트중 장애발생시 데이터 손실 가능성이 있는것으로 아는데 이에 대한 보안점과 계획은 어떻게되는지요?
MDB은 design부터 분산 환경이기 때문에 하나의 node(논리적)는 기본적으로 3개의 물리 노드의 집합입니다. 한번에 두 개 이상의 물리 노드에 장대가 발생하기 전에는 downtime은 발생하지 않고, 물리 노드간 failover(보통 2초 내 수행)시에 application handover도 SDK driver차원에서 자동으로 이루어지고 있으며, 짧은 handover 동안 발생하는 write fail 의 경우도 driver차원에서 retryable write을 지원하고 있어 app 입장에서는 서비스 중단의 경험은 없다고 보셔도 무방합니다
[질문]Non parametric에 대해 공부중입니다. 처음 접하는 개념이라 질문사항이 몇가지가 있습니다.
1) 인공지능 붐이 일어나기 전과 후 non parametric에서 대세가 되고 있는 이론이 있나요?
2) 혹시 가우시안과 베이지안 프로세스가 현재 인공지능 붐의 대세인가요?
3) 가우시안 프로세스는 오래전에 나온 이론인데, 딥러닝이 활성화되면서 예전과 어떤 차이점이 있는지 궁금합니다.
RNN등으로 인해, 산출되는 값이 많이 바뀌기 시작한 것인가요?
추가로 질문하나만 더 드립니다. 기존에 non parametric이라고 칭하던게 현재 딥러닝에서 구사하는 unsupervised 개념이 맞는 것인지요? 또한 시계열과 가우시안 프로세스는 같은 방식의 코딩인가요?
성실한 답변 부탁드립니다.