[질문] 기존 데이터가 oracle이나 MSSQL등의 DB형태로 되어있는지는 크게 중요하지 않은가요? 별도의 컨저전 과정이 필요한가요?
오늘 소개해드리는 Forercast와 AWS Sagemaker라는 머신러닝 플랫폼은 S3를 기반으로 작업합니다.
하지만 DB를 데이터 소스로 해서 Sagemaker에서 활용할 수 있는 다양한 방법들을 이미 소개해서 고객분들이 적용하고 있습니다.
https://aws.amazon.com/ko/blogs/machine-learning/run-sql-queries-from-your-sagemaker-notebooks-using-amazon-athena/
[질문]AI를 활용한 분석을 하기 전에 데이터 수집과 사전 정제 작업에 대한 중요도와 원하는 결과 값 도출을 위해 어떤 전문성을 가져야 하는지 궁금합니다.
많은 데이터와 데이터의 정제 작업은 모델 성능에 반드시 영향을 줍니다.
따라서 (1) 데이터를 모으는 것 (2) 데이터를 정제하는 것을 위해서 자해당 도메인의 데이터를 잘 아시는 것이 무엇보다 중요합니다.
예를 들면 이 데이터가 Null인지 0인지에 따라서도 달라지기 때문에 수집한 데이터가 잘 모아졌는지, 왜곡되었는지를 모델 학습 전에 판단할 수 있어야 합니다.
[질문] 기존에 수학적 예측모델과 머신러닝을 활용한 예측모델의 신뢰도를 비교한다면 어떤 차이가 있을까요?
머신러닝에서 사용하는 예측 모델은 고객의 데이터를 기반으로 제공되며, 이 때 예측모델의 학습과정에서 사용되는 알고리즘은 수학적인 모델을 기반합니다.
https://docs.aws.amazon.com/ko_kr/forecast/latest/dg/aws-forecast-choosing-recipes.html
ARIMA같은 경우는 전통적인 기법의 구조적인 데이터를 분석하는 알고리즘입니다.
[질문] 입력 데이터 형식을 지정할 때 CSV 파일 열 헤더 표시 방식은 " " 안에 넣으면 되는 것인지요? 설명 부탁드립니다.