[질문]Non parametric에 대해 공부중입니다. 처음 접하는 개념..

2024-04-24 stephan
[질문]Non parametric에 대해 공부중입니다. 처음 접하는 개념이라 질문사항이 몇가지가 있습니다.
1) 인공지능 붐이 일어나기 전과 후 non parametric에서 대세가 되고 있는 이론이 있나요?
2) 혹시 가우시안과 베이지안 프로세스가 현재 인공지능 붐의 대세인가요?
3) 가우시안 프로세스는 오래전에 나온 이론인데, 딥러닝이 활성화되면서 예전과 어떤 차이점이 있는지 궁금합니다.
RNN등으로 인해, 산출되는 값이 많이 바뀌기 시작한 것인가요?
추가로 질문하나만 더 드립니다. 기존에 non parametric이라고 칭하던게 현재 딥러닝에서 구사하는 unsupervised 개념이 맞는 것인지요? 또한 시계열과 가우시안 프로세스는 같은 방식의 코딩인가요?
성실한 답변 부탁드립니다.
- 좋아요
- 답글
- 1
2024-04-24 kyungmo.yang
안녕하십니까. 앤시스 코리아 양경모입니다.
1. 인공지능 붐이 일어나기 전과 후에도 여러 이론과 방법론이 발전하고 있습니다. Non-parametric 방법론은 그 중 하나입니다. 이 방법론은 데이터에 대한 가정 없이 모델을 구축하는 방식으로, 특히 데이터의 분포를 가정하지 않는 통계적 방법을 말합니다.
여기서 몇 가지 주목할만한 non-parametric 이론과 방법론을 소개해 드리겠습니다:
- K-최근접 이웃 (K-Nearest Neighbors, KNN)
- 커널 밀도 추정 (Kernel Density Estimation, KDE)
- 비모수적 가설 검정 (Non-parametric Hypothesis Testing)
- 부트스트레핑 (Bootstrap)
- 로우스톤 테스트 (Runs Test)
2024-04-24 kyungmo.yang
2. 현재 인공지능 분야에서 가우시안 프로세스와 베이지안 프로세스는 주목받고 있는 중요한 기술입니다.

가우시안 프로세스 (Gaussian Process):
가우시안 프로세스는 확률론적 모델링 방법으로, 불확실성을 추정하고 함수를 모델링하는 데 사용됩니다.
하이퍼파라미터 최적화에 활용되며, 목표 함수의 불확실성을 고려하여 최적값을 찾습니다.
예를 들어, 인공지능 모델의 하이퍼파라미터 조정에 활용됩니다.
베이지안 프로세스 (Bayesian Process):
베이지안 프로세스는 베이지안 확률론에 기반한 순차적 최적화 전략을 사용합니다.
목표 함수의 불확실성을 추정하고, 이를 기반으로 하이퍼파라미터 최적값을 찾아냅니다.
정보보안 분야에서도 AISecurity와 관련하여 베이지안 기술이 적용 가능성을 가지고 있습니다.
이러한 기술들은 인공지능 붐에서 중요한 역할을 하고 있으며, 더 많은 연구와 응용이 기대됩니다.
2024-04-24 kyungmo.yang
가우시안 프로세스(Gaussian Process, GP)는 확률적인 모델링 방법으로, 데이터의 분포를 추론하는데 사용됩니다. 이론적으로는 오래전부터 존재했지만, 딥러닝이 활성화되면서 다양한 차이점이 나타났습니다.
딥러닝과 가우시안 프로세스의 차이점:
- 딥러닝은 신경망 구조를 사용하며, 많은 뉴런과 레이어로 복잡한 함수를 근사합니다.
- 가우시안 프로세스는 확률적인 함수를 직접 모델링하며, 평균 함수와 공분산 함수를 사용합니다.
- 딥러닝은 대량의 데이터를 필요로 합니다. 많은 샘플이 있을 때 성능이 향상됩니다.
- 가우시안 프로세스는 적은 데이터로도 유연하게 모델링할 수 있습니다.
- 가우시안 프로세스는 불확실성을 확률적으로 다루기 때문에 예측에 대한 불확실성을 제공합니다.
- 딥러닝은 불확실성을 직접 다루지 않고, 예측값만 제공합니다.
- 가우시안 프로세스에서 커널 함수는 데이터 간의 상관 관계를 정의합니다.
딥러닝에서는 커널 함수 대신 활성화 함수를 사용합니다
2024-04-24 kyungmo.yang
RNN은 시계열 데이터와 순차적인 데이터를 모델링하는데 사용됩니다.
가우시안 프로세스는 시간에 따른 불확실성을 다루는데 유용합니다.
따라서 RNN과 가우시안 프로세스는 서로 보완적인 역할을 합니다.
2024-04-24 kyungmo.yang
현재 딥러닝에서 non-parametric이라는 용어는 unsupervised 학습과 관련하여 사용됩니다. 이 개념은 라벨 없는 데이터를 활용하여 모델을 훈련하는 방식을 의미합니다. Non-parametric 방법은 파라미터의 수를 고정하지 않고 데이터에 따라 유연하게 모델을 구성하는 방식입니다. 이는 클러스터링 (예: K-means)이나 차원 축소 (예: PCA)와 같은 전통적인 비지도 학습 방법과도 관련이 있습니다.

시계열과 가우시안 프로세스는 다른 개념입니다. 시계열은 시간에 따라 변화하는 데이터를 다루는 것으로, 예측, 분류 또는 패턴 인식과 같은 작업에 사용됩니다. 반면 가우시안 프로세스는 확률적 모델로, 데이터의 분포를 모델링하고 예측하는 데 사용됩니다. 이 두 개념은 서로 다른 방식으로 코딩되며, 시계열 데이터를 다루는 경우 시계열 모델링 기법을 사용하고, 가우시안 프로세스를 적용할 때는 해당 프로세스를 구현하는 방식을 따릅니다.

Ansys SimAI: 빠른 결과 예측을 위한 Non-parametric 인공지능 플랫폼

2023-09-06 sboat123
[질문] 배치성 작업이 많은 기업은 msa 전환을 했을때 속도적인 면에서나 비용적인 면에서 효과를 볼수 있는지 궁금합니다.
2023-09-06 SUSE 코리아
MSA의 궁극적인 목표는 서비스를 단순화 하는 것이기에 대량의 배치 업무와 같은 비지니스의 경우 기대하시는 전환효과에 비해 상대적으로 많은 오버헤드가 존재할 수 있습니다. 따라서 업무와 비지니스에 대한 상세한 분석이 필요합니다.

구해줘! IT Infra

2023-09-06 하늘보자
기존 인프라가 갖추어져있지 않은 기업이나 환경에서 도입을 위해 초반에 확인이 되어야하는 부분이 있는지 알고 싶습니다.
2023-09-06 SUSEKorea
Cloud Native로의 전환은 플랫폼과 어프리케이션의 변화가 필요합니다.
초반에는 어떠한 플랫폼을 이용할지, 그리고 처음에는 영향도가 scale이 작은 application부터 전환 대상으로 지정하여 수행 하는것을 추천드립니다.
새로운 개발/운영 문화에 대한 친숙도를 올리는 것이 중요합니다.

구해줘! IT Infra

2023-09-06 [이호승]
[질문] 업그레이드나 패치시 다운타임을 제로화 하기 위해서 필수요소가 궁금합니다.
2023-09-06 SUSE 코리아
서비스 중단 없는 클라우드 운영을 위한 전략으로는 크게 2가지가 있다고 생각합니다.
1. Blue-Green Deployment
두 개의 별도 환경을 준비하여 한 쪽은 실제 서비스, 다른 한 쪽은 업데이트를 진행합니다. 업데이트가 완료되면 트래픽을 업데이트된 새 환경으로 전환합니다.

2. Canary Release
새로운 버전을 일부 사용자에게만 먼저 제공하여 검증하고 이 결과를 분석하여 문제가 없는 것을 확인한 후 전체 사용자에게 업데이트를 확장합니다.

구해줘! IT Infra

2023-09-06 화치
[질문]하이브리드 클라우드 시대의 현재 업계 동향 및 앞으로의 발전 방향에 대해서 문의드립니다
2023-09-06 SUSEKorea
많은 Trend중에, DevOps에서 DevSecOps로 가는 Trend가 있습니다.
최근 많은 기업에서 전환뿐만 아니라, Cloud Native 환경에서의 Seucrity에 대한 고민을 많이 늘어나고 있습니다.
기존의 Legacy의 수단만으로 보안을 수립할 수 없기에, 최근 Cloud Native에 맞는 zero-trust 개념이 포함된 많은 솔루션들이 부각되고 있습니다.

구해줘! IT Infra

2023-09-06 백조의호수
[질문] App Modernization을 통해 TCO 절감을 위해서 구체적으로 거쳐야 하는 단계 내지는 과정은 무엇이 있는지요?
2023-09-06 SUSEKorea
단기적인 절감보다는 장기적인 관점에서 진행을 하면 명확한 TCO에 대한 절감을 목표로 해야한다고 생각합니다.
1. 현재 상태 평가
기존 시스템 분석: 현재 사용중인 애플리케이션과 인프라의 특성과 구조를 파악합니다.
비즈니스 요구사항 분석: 비즈니스 목표와 요구사항을 정확히 이해하고 정리합니다.
2. 전략 수립 및 로드맵 개발
3. 아키텍처 설계 및 데이터 마이그레이션 전략 수립
4. 개발 및 테스팅 환경 구현
5. 운영전환 및 배포,운영인력 훈련 및 지원
6. 운영환경 유지관리 및 최적화
이러한 단계를 거치면서 비용, 시간, 자원 등을 절약하고, 시스템의 효율성과 유연성을 향상시킬 수 있어 TCO를 절감할 수 있습니다.
2023-09-06 백조의호수
답변 감사합니다. 답변을 보고 추가로 문의 드리자면, AM을 통해 장기적인 관점에서 TCO 절감이 현행 인프라 대비 얼마나 개선될 수 있는지 어떻게 Estimate 하고 의사결정권자를 설득할 수 있을지 궁금합니다.

구해줘! IT Infra

2023-08-30 이재복
무

구해줘! Manufacturing

2023-08-24 smartdotory
1. 오픈소스 활용 개발 or API 연결 개발 둘 중 어느 방식일까요? 2. 회사의 정보를 활용해서 자체 LLM 서비스를 구축하기 위해서 문서(PPT, 엑셀, 워드, PDF, 메일 등)를 파인튜닝 하려고 하면 어떤 방식으로 선행 작업이 진행되어져야 할까요?

구해줘! AI

2023-08-24 전승호
이차전지의 디지털 트윈으로 스마트 제조/운영 환경 변화 과정중에 이슈와 해결을 통한 노하우가 궁금합니다

구해줘! Manufacturing

2023-08-24 전승호
이차전지 디지털 트윈으로 스마트 제조/운영 환경 과정에 이슈와 해결을 통한 노하우가 궁금합니다

구해줘! Manufacturing

2023-07-06 성태
[질문] 몽고DB가 스케일아웃을 샤딩을 통해 효과적으로 성능개선을 이루는데 스케일아웃을 구현하는 방식등에서 타 NOSQL과 어떤 차이가 있고 성능상 어느정도 차별화가 되는지 궁금합니다
2023-07-06 MongoDB Atlas
MongoDB는 샤딩시 여러 기준으로 샤딩을 할 수 있습니다. Range , hash , zone 기반이 가능하고, online 을 이용해 sharding 키를 변경 , 재 생성할 수 도 있습니다.

야너두, 시티즌 데이터사이언티스트

2023-07-06 김완수
[질문] RDB는 정규화로 인해 성능, 효율성 문제가 있어 역정규화 과정이 필요하게 되는데... NoSQL도 역정규화 과정이 요구되는지 궁금합니다.
2023-07-06 MongoDB Atlas
MongoDB는 디자인 패턴 개념이 있습니다. RDBMS 스키마 디자인 하는것처럼 MongoDB도 여러가지 디자인 패턴을 사용할 수 있습니다.

야너두, 시티즌 데이터사이언티스트

2023-07-06 sboat123
[질문] 데이터사이언스가 분석시 전처리과정과 정규화 과정에 가장 많은 시간을 할내하는데 몽고 db 를 사용하면 이 기간을 줄일수 있는지요 ?
2023-07-06 MongoDB Atlas
기존에 Rigid한 데이터 모델이 여러 소스에서 오고 , 이를 모아 전처리하는 부분에서 MongoDB Document Model이 적합합니다. 이를 통해 전처리 시간을 줄일 수 있습니다.

야너두, 시티즌 데이터사이언티스트

2023-07-06 [이호승]
[질문]
질문 AI 모델의 하이퍼파라미터를 저장하고 관리할때
성능향상을 주기위해 적용되는 기술이 별도로 있는지 궁금하고

풀 텍스트 검색 기능은 AI 모델의 결과를 검색하고 분석하는 데
부하를 주게 되는지 혹은 부하가 있어도 해소하는 기법이 있는지요
2023-07-06 MongoDB Atlas
MongoDB Atlas Search의 경우 해당 이슈를 해결 하기 위해 검색 전용 노드를 구성 하여 해결 할 수 있습니다.

야너두, 시티즌 데이터사이언티스트

2023-07-06 형은
[질문]수집된 IOT데이터 분석을 통한 가시성 확보와 분석 속도를 높이고, 데이터 융합과 관련하여 RDBMS와 비교 시, NoSQL 몽고DB의 효율은 얼마나 높은지요?
2023-07-06 MongoDB Atlas
신규로 제공되어지는 Time series collection 사용시 storage 의 효율은 90% 이상 좋아집니다.

야너두, 시티즌 데이터사이언티스트

2023-07-06 정숙
[질문] RDBMS로 분산 처리시 RDBMS는 READ하는 부분은 여러 노드를 둘 수 있지만, WRITE는 하나 뿐이기에 이 부분이 병목으로 작용하여 성능이 안좋다고 하는데, 일관성 부분만 포기하면 RDBMS도 WRITE 노드를 여러개 두어서 보안이 가능한지와 몽고DB에서는 분산처리 성능개선이 어떻게 이루어지는지요?
2023-07-06 MongoDB Atlas
Write 에 대한 처리는 샤딩을 추가 함으로 처리량을 증가시킬 수 있습니다. RDBMS 여러개의 node에서 write 시에는 write conflict을 고려하셔야 하는 제약이 있습니다.

야너두, 시티즌 데이터사이언티스트

2023-07-06 한나조
[질문] 몽고DB가 AI 서비스에 적용될 때, 일반 DB나 비정형 타 DB 대비 성능면에서 얼마나 우위에 있나요?
2023-07-06 MongoDB
유연한 json document를 강점이라고 보시면 됩니다. AI training을 위해서 data lake라는 개념을 개발하게 됐는데, 정형화된 RDB만으로 ML training이 불가능하기 때문에 비정형/반정형 데이터를 자유롭게 저장할 수 있는 DL를 도입하게 되었습니다. DL의 제약은 object storage나 plain file들이기 때문에 OLTP에 비해 성능이 떨어져 실시간 AI 서비스 구성에 제약이 있습닌다. MDB의 경우 DataBricks나 BigQuery등과 결합해서 실시간 AI 모델링을 가능하게 하기도 하고, modeling 결과를 flexible model인 json에 저장할 수 있는 장점이 있다고 볼 수 있습니다

야너두, 시티즌 데이터사이언티스트

2023-07-06 앵그리파파
[질문] 몽고DB는 운영중인 RDB 환경을 몽고DB 아틀라스로 무중단 이전이 가능한지 궁금하고, 데이터 분석 후 아틀라스로의 원활한 마이그레이션을 위한 연속 동기화 작업을 실행할 수 있는지도 궁금합니다.
2023-07-06 MongoDB
MDB6.0부터 relational migrator라는 툴이 preview로 소개되었고 1년 이상 필드에서 검증/보완을 통해 7.0에 GA되었습니다. oracle, mysql, mssql, 등 다양한 RDB의 data (무중단) migration은 물론이고 새 data model을 위해 기존 application code(java, c#, ...)에 적용가능한 model code를 생성해 주는 기능이 있습니다.

야너두, 시티즌 데이터사이언티스트

2023-07-06 양재영
[질문]데이터 업데이트중 장애발생시 데이터 손실 가능성이 있는것으로 아는데 이에 대한 보안점과 계획은 어떻게되는지요?
2023-07-06 MongoDB
몽고 Replica Set은 기본 물리 노드 3개가 하나의 논리 노드로 구성되는 구조입니다.
추가 노드를 구성할 수도 있고, DR을 손쉽게 구성할 수도 있습니다. 사실상 무중단 서비스라고 보실 수도 있습니다

야너두, 시티즌 데이터사이언티스트

2023-07-06 주영선
[질문] MongoDB가 챗GPT 등의 생성AI 서비스에 적용되었을 때 다른 비정형 DB 대비 강점이나 특화된 점은 무엇일까요?
2023-07-06 MongoDB
LLM이 필요한 기는 중 주요 기능이 semantic search입니다. vector search로 지원할 수 있는 기능이고 MDB7.0부터 지원하고 있습니다

야너두, 시티즌 데이터사이언티스트

2023-07-06 rokace22
질문 ETL를 최소화할 수 있는 획기적인 방법과 노하우에 대해서 궁금합니다 ^^
2023-07-06 MongoDB
전통적인 MSA는 app에 적합한 data model을 지원하는 DB를 선택해서 전체 서비스를 구성하지만 몽고의 경우 하나의 DB가 다양한 data model을 지원하기 때문에 이기종 시스템의 결합이 아닌 구조에서 ETL을 최소화할 수 있습니다

야너두, 시티즌 데이터사이언티스트

전문가 Q&A

엄선된 질문과 전문가의 답변을 보실 수 있습니다.

알립니다

로그인

회원 가입