안녕하십니까. 앤시스 코리아 양경모입니다.
1. 인공지능 붐이 일어나기 전과 후에도 여러 이론과 방법론이 발전하고 있습니다. Non-parametric 방법론은 그 중 하나입니다. 이 방법론은 데이터에 대한 가정 없이 모델을 구축하는 방식으로, 특히 데이터의 분포를 가정하지 않는 통계적 방법을 말합니다.
여기서 몇 가지 주목할만한 non-parametric 이론과 방법론을 소개해 드리겠습니다:
- K-최근접 이웃 (K-Nearest Neighbors, KNN)
- 커널 밀도 추정 (Kernel Density Estimation, KDE)
- 비모수적 가설 검정 (Non-parametric Hypothesis Testing)
- 부트스트레핑 (Bootstrap)
- 로우스톤 테스트 (Runs Test)
2. 현재 인공지능 분야에서 가우시안 프로세스와 베이지안 프로세스는 주목받고 있는 중요한 기술입니다.
가우시안 프로세스 (Gaussian Process):
가우시안 프로세스는 확률론적 모델링 방법으로, 불확실성을 추정하고 함수를 모델링하는 데 사용됩니다.
하이퍼파라미터 최적화에 활용되며, 목표 함수의 불확실성을 고려하여 최적값을 찾습니다.
예를 들어, 인공지능 모델의 하이퍼파라미터 조정에 활용됩니다.
베이지안 프로세스 (Bayesian Process):
베이지안 프로세스는 베이지안 확률론에 기반한 순차적 최적화 전략을 사용합니다.
목표 함수의 불확실성을 추정하고, 이를 기반으로 하이퍼파라미터 최적값을 찾아냅니다.
정보보안 분야에서도 AISecurity와 관련하여 베이지안 기술이 적용 가능성을 가지고 있습니다.
이러한 기술들은 인공지능 붐에서 중요한 역할을 하고 있으며, 더 많은 연구와 응용이 기대됩니다.
가우시안 프로세스(Gaussian Process, GP)는 확률적인 모델링 방법으로, 데이터의 분포를 추론하는데 사용됩니다. 이론적으로는 오래전부터 존재했지만, 딥러닝이 활성화되면서 다양한 차이점이 나타났습니다.
딥러닝과 가우시안 프로세스의 차이점:
- 딥러닝은 신경망 구조를 사용하며, 많은 뉴런과 레이어로 복잡한 함수를 근사합니다.
- 가우시안 프로세스는 확률적인 함수를 직접 모델링하며, 평균 함수와 공분산 함수를 사용합니다.
- 딥러닝은 대량의 데이터를 필요로 합니다. 많은 샘플이 있을 때 성능이 향상됩니다.
- 가우시안 프로세스는 적은 데이터로도 유연하게 모델링할 수 있습니다.
- 가우시안 프로세스는 불확실성을 확률적으로 다루기 때문에 예측에 대한 불확실성을 제공합니다.
- 딥러닝은 불확실성을 직접 다루지 않고, 예측값만 제공합니다.
- 가우시안 프로세스에서 커널 함수는 데이터 간의 상관 관계를 정의합니다.
딥러닝에서는 커널 함수 대신 활성화 함수를 사용합니다
RNN은 시계열 데이터와 순차적인 데이터를 모델링하는데 사용됩니다.
가우시안 프로세스는 시간에 따른 불확실성을 다루는데 유용합니다.
따라서 RNN과 가우시안 프로세스는 서로 보완적인 역할을 합니다.
현재 딥러닝에서 non-parametric이라는 용어는 unsupervised 학습과 관련하여 사용됩니다. 이 개념은 라벨 없는 데이터를 활용하여 모델을 훈련하는 방식을 의미합니다. Non-parametric 방법은 파라미터의 수를 고정하지 않고 데이터에 따라 유연하게 모델을 구성하는 방식입니다. 이는 클러스터링 (예: K-means)이나 차원 축소 (예: PCA)와 같은 전통적인 비지도 학습 방법과도 관련이 있습니다.
시계열과 가우시안 프로세스는 다른 개념입니다. 시계열은 시간에 따라 변화하는 데이터를 다루는 것으로, 예측, 분류 또는 패턴 인식과 같은 작업에 사용됩니다. 반면 가우시안 프로세스는 확률적 모델로, 데이터의 분포를 모델링하고 예측하는 데 사용됩니다. 이 두 개념은 서로 다른 방식으로 코딩되며, 시계열 데이터를 다루는 경우 시계열 모델링 기법을 사용하고, 가우시안 프로세스를 적용할 때는 해당 프로세스를 구현하는 방식을 따릅니다.
세일즈포스의 메시지가 No 소프트웨어인데, 전통적으로 비싼 기업용 소프트웨어가 아니라는 건지요? 정확하게 No Software가 뭔지요?
기존 레거시 시스템과 달리 물리적인 서버나 별도의 설치가 필요 없이 가입해서 로그인 해서 환경설정 해서 바로 쓸 수 있다는 의미로 알고 있습니다.
맞습니다. 마크베니오프가 창업 당시 마이크로소프트, 오라클, 같은 IT공룡이 지배하던 기업용 소프트웨어 시장에서 고객의 불편이 무시되고 있음을 발견하고, 기업용소프트웨어를 인터넷을 통해 손쉽게 사용하게 만든다는 모토로 만들어진 것입니다.
[질문]세일즈포스의 AI와 머신러닝 학습에 사용되는 알고리즘이 동일한 것으로 개발된 경우에는 고객에 대한 분석 결과가 비슷하거나 동일하게 생성되는지 궁금합니다.
알고리즘은 동일하나, 학습되는 데이터의 종류와 양에 따라 달라지겠습니다. 세일즈포스는 그 동안의 노하우가 AI에 녹아져 있다고 보시면 됩니다
AI로 세일즈포스에 적용하려는 기술에 대한 로드맵이 있나요?
네.. 상세한 로드맵이 있습니다. 필요하시면 추후에 상세하게 설명드리겠습니다.
[질문] 안녕하세요~
고객들의 행동을 예측해서 대응할 때 데이터 편중되는 문제에 대해서 어떻게 처리하나요?
데이터 편중이라고 하시면, 예를 들어서 말씀 주시겠습니까?
세일즈포스의 시스템인 애자일 같은 경우는 회사의 기술,영업,재무,구매부분의 시스템을 AI로 분석을 하는건가요?
AI를 통한 분석은 비지니스 목적에 맞는 데이터는 모두 학습을 할 수 있도록 하고 있습니다
[질문] 안녕하세요~
아인슈타인 프로젝트 이후 여러 AI 전문기업을 인수하고, 구글과의 AI 분야도 협력하고 있는 것으로 알고 있습니다.
국내에서 사용중인 서비스가 있나요?
네... 구글과도 솔루션 차원에서 협력해서 로드맵에 반영을 하고 있고, 국내 AI 솔루션도 현재 AppExchange에 올라가 있습니다.
Salesforce는 기업가치 및 그 유명세 등에 비해 아직 국내에서는 사용 고객을 많이 찾아보기 어려운데요. 국내 biz. 현황? 고객사 확보 규모 등이 궁금합니다. 물론 open이 어려우실 수 있겠으나, rough하게라도 알려주시면 감사 하겠습니다.
국내에서는 약 400여개의 고객사와 대부분의 인더스트리에서 레퍼런스를 가지고 있습니다.
포춘 100대 기업중 99개사가 SFDC 고객이라고 들었어요. 나머지 1개 기업은 어느 회사인지가 궁금하네요.
안녕하세요? 나머지 한 개 기업은 2018년 기준 100대 기업 중 37위 Valero Energy 입니다
[질문] 한가지 솔루션에 OS가 다른 컨테이너를 각기 적용할 경우 주로 어떤 사항들을 고려해야 할까요?
컨테이너기술은 OS가 다른 컨테이너들의 (예 :윈도우즈,우분투) 운영이 불가한 기술입이다.
윈도에서는 우분투 가상 머신을 이용해서 컨테이너를 사용하는 걸로 알고 있네요. 컨테이너가 우분투에서 부터 시작된걸로 알고 있고...
컨테이너 기술은 선솔라리스에서 시작되었구요. 이후 리눅스 커널에(우분투 배포판의 커널) cgroup기반의 도커 컨테이너가 대중화되었구요. 이에 질세라 윈도우 2018 서버 에디션도 컨테이너 피쳐가 제공되는 연혁을 가지고 있습니다.
3D프린터로 제작한 제품의 기계적 물성중에서 피로특성이 가장 취약한 것으로 알고 있습니다. 향상시킬수 있는 방법이 있으면 말씀을 부탁드립니다.
HIP을 하면 됩니다.
HIP한번하는데 비용이 얼마나 드나요?
HIP으로 피로특성을 향상시킬수 있지만 HIP처리하면 입자크기가 커지기 때문에 피로특성을 더 악화시킬수도 있는 것으로 알고 있습니다.
금속 조직 사진을 보면 그렇지 않다는 보고들이 많습니다.
[질문]오라클 클라우드 스트럭쳐 구축 도입시 IT 관리자가 다른 사업부와 프로젝트 진행시 각 사용자의 보안및 데이터 보호정책 궁금합니다.
Oacle Cloud Service는 Compartment라는 논리적인 격리 및 Policy라는 정책을 통해 하나의 Tenancy내에서 보안 및 권한을 통제하는 기능을 제공하고 있고,
이런 기능들이 다른 Public Cloud 경쟁사 대비 강점이라고 이야기합니다.
[질문]Non parametric에 대해 공부중입니다. 처음 접하는 개념이라 질문사항이 몇가지가 있습니다.
1) 인공지능 붐이 일어나기 전과 후 non parametric에서 대세가 되고 있는 이론이 있나요?
2) 혹시 가우시안과 베이지안 프로세스가 현재 인공지능 붐의 대세인가요?
3) 가우시안 프로세스는 오래전에 나온 이론인데, 딥러닝이 활성화되면서 예전과 어떤 차이점이 있는지 궁금합니다.
RNN등으로 인해, 산출되는 값이 많이 바뀌기 시작한 것인가요?
추가로 질문하나만 더 드립니다. 기존에 non parametric이라고 칭하던게 현재 딥러닝에서 구사하는 unsupervised 개념이 맞는 것인지요? 또한 시계열과 가우시안 프로세스는 같은 방식의 코딩인가요?
성실한 답변 부탁드립니다.