• avatar
    2020-07-03 김태식

    [질문] 아마존 세이지메이커는 AWS 콘솔을 통해 프리뷰 버전을 사용할 수 있고, 무료 서비스인 AWS 프리 티어 로 무료로 사용할 수도 있는데요, 이때 이용 요금이 발생한다고 하는데요, 어떤 비용이 발생 하는지요?

  • avatar
    2020-07-03 bonayaing81

    비용관련해서는 저희 AWS Pricing page를 확인하시는 방법이 가장 정확합니다. 비용 체계가 굉장히 세분화 되어 있어 여기서 확인해 보시는게 정확합니다. https://aws.amazon.com/sagemaker/pricing/


  • avatar
    2020-07-03 정상문

    [질문] 여담이지만, 오토ML의 발전 추이를 데이터 과학자들이 따라잡기 힘들것 같다는 생각이 듭니다. 데이터 과학자를 꿈꾸는 학생들에게 조언을 해주신다면...? 설마 데이터 과학자가 필요없는 세상이 오는건 아니겠죠.

  • avatar
    2020-07-03 bonayaing81

    아닙니다. 데이터 사이언티스트가 더 필요합니다. 업계 지식과 데이터에 대한 insight가 있을수록 더 좋은 결과가 나옵니다.


  • avatar
    2020-07-03 박선희

    [질문] 세이즈메이커에서 학습하기전에 데이타 전처리는 따로 해주지 않아도 자동으로 해주는 것인가요? 예를들면, 이미지들의 사이즈 맞추기 등

  • avatar
    2020-07-03 조창윤

    Autopilot 는 Feature 에 대해서 자동으로 전처리를 합니다. Autopilot 을 사용하지 않는다면 직접 (노하우를 가지고) 해주셔야 합니다.
    다만 현재 Autopilot 이 지원하는 Problem type 이 linear regression 과 logistic regression 만 지원하기 때문에 이미지 처리는 Autopilot 을 사용하실수 없습니다.
    이미지관련 SageMaker 의 built-in 알고리즘을 사용하셔야 하고 직접 전처리 하셔야 합니다. :(


  • avatar
    2020-07-03 방극민

    (질문) 인공지능으로 알고리즘은 기존 대이터의량에 따라 결과치의 정확도를 예측가능하게되나요? 아니면, 기존의 학습에 따라서 결정되는 건가요?

  • avatar
    2020-07-03 조창윤

    데이터가 많아도 필요한 데이터가 없다면 정확도는 낮을수밖에 없구요. 데이터에 대한 Ingest 가 가장 중요한 이유입니다. 계속해서 노력해서 데이터를 모으고 고민하고 ML 학습해보고 끊임없는 노력을 통해서 정확도를 높이는것이 일반적이라 판단됩니다.


  • avatar
    2020-07-03 CoolGuy

    [질문] 라벨링의 형태가 Public, Private, Vendors로 되어 있던데 데이터셋을 제작할 때 어떻게 구성하는 것이 효율성이 좋은지 답변 부탁드립니다.

  • avatar
    2020-07-03 bonayaing81

    데이터 민감도와 워크로드의 성질에 따라 다를거 같습니다. 아까 말씀 드린 이미지 관련 (언어와 무관한 작업이라면) public이 어울리겠지만 한국어를 보고 negative postive 분류해주길 바란다면 private으로 꾸리서야 할겁니다. 그리고 데이테가 외부에 공개 되도 되는지 아닌지에 따라 정하실수 있을듯 합니다.

  • avatar
    2020-07-03 CoolGuy

    답변 감사드립니다.


  • avatar
    2020-07-03 이종우

    [질문] 새로운 알고리즘에 대해서 자유 업데이트가 가능한가요?

  • avatar
    2020-07-03 조창윤

    직즙 마드신 새로운 알고리즘이 있으시다면 Docker 로 구워서 ECR (Elastic Container Register) 에 등록하시고 ECS (Elastic Container Service, Docker) 을 쓰시면 됩니다.
    즉 Built-in 알고리즘을 쓰실때는 ECR URI (정보) 을 설정하지 않지만 직접 만드시고 등록한 Docker 에 대해서는 URI (주소) 을 지정하셔야 하는 차이가 존재합니다.


  • avatar
    2020-07-03 LJW

    [질문]Amazon SageMaker Studio 의 우수 성공사례가 있나요?

  • avatar
    2020-07-03 bonayaing81

    Sagemaker Studio는 최근 오픈한 서비스 여서 제가 많은 사례를 다 알지는 못하지만 https://aws.amazon.com/sagemaker/customers/ 에 가시면 좀 도움이 되실거 같습니다.


  • avatar
    2020-07-03 ho

    [질문]아마존 서지메이커 워크플로는 정해진 포맷을 지원하는지요?확장된 워크플로는 부분 변경이 가능한지 문의합니다.

  • avatar
    2020-07-03 조창윤

    SageMaker 의 각 Job 들 (Processing Job, Training Job, Hosting Job 등) 에 대한 Workflow 말씀하시는 거라면 AWS Stepfunction 이나 Apach Airflow 또는 Kuberflow 을 사용하실수도 있습니다.


  • avatar
    2020-07-03 박선희

    [질문] s3가 아닌 다른 원격지에 있는 데이타를 이용하는 것도 가능한가요? 3s와 마찬가지로 데이타다운로드에 대한 과금이 안되나요?

  • avatar
    2020-07-03 bonayaing81

    일단은 S3로 무조건 이전해 와있어야합니다. Data transfer out비용은 발생합니다. 하지만 sagemaker와 S3사이의 데이터 transfer는 비용이 발생하지 않습니다.


  • avatar
    2020-07-03 이세원

    [질문] 알고리즘의 성능이 인공지능의 질적 차이를 가져올것 같은데 이에 대한 차별화된 특징이 있는지요?

  • avatar
    2020-07-03 bonayaing81

    지금 보시는 18가지 알고리즘은 이미 업계에서 표준화된 알고리즘입니다. 딥러닝이 아닌 것과 딥러닝이 아닌것이 합쳐져 있습니다.
    일반적인 워크로드에 최적화 됬다고 보시는게 맞습니다.


  • avatar
    2020-07-03 김태식

    [질문] 기존까지 모델 튜닝은 시행착오 방식으로 진행이 되었고. 해보고 안되면 다른 대안을 찾는 식이었는데요. 그러나 세이지메이커는 이른바 HPO 방식을 사용하여 간단한 클릭만으로 훈련 모델의 여러 복사본이 만들어지고, 머신러닝을 이용해 각 변화를 동시에 검토하여, 이 검토 결과에 따라 변수를 튜닝을 하는데요, HPO 방식에 관한 설명을 요청 드립니다.

  • avatar
    2020-07-03 조창윤

    말씀하시는 바와 같이 ML 은 '데이터셋' 부터 '배포/서비스/모니터링' 까지 엄청남 노력과 반복작업입니다. Feature Engineering 을 하게 되면 다시 HPO 진행하셔야 한다는점 미리 말씀드립니다.
    엄청나게 Engineering 을 진행한 데이터셋이 있다고 가정하였을때 제가 사용하려는 알고리즘 (예, xgboost) 을 선택하면 알고리즘의 static parameter 를 고정하시고 tuning 할 parameter 을 정의하시면 됩니다. Tuning 하려는 parameter 별로 range 을 주시면 HPO 후에 해당 range 에서 어떤 값이 가장 Best 다라고 결과가 나옵니다.
    추가로 한번 HPO 후 완료하는 것이 아니라 range 을 처음에는 조금 크게, 그 다음은 조금 작게...이런식으로 몇번을 하시는것을 추천드립니다.


  • avatar
    2020-07-03 전영진

    [질문] 주요 알고리즘은 DLAMI으로 직접 python 코드로 구성하면서 SageMaker Ground Truth의 레이블링을 병용하는 것이 가능한지 그리고 혹시 병용할 수 있는 다른 더 좋은 레이블링 방법이 있는지 궁금합니다.

  • avatar
    2020-07-03 bonayaing81

    DLAMI는 학습을 위한 전용 framework들이 설치된 OS+framework+packes 인 이미지 이고요, 여기 위에서 학습을 위해 필요한 데이터를 준비하시는 과정에서 GroundTruth(GT)를 사용하실수 있습니다. GT에서 나온 결과를 가지고 sagemaker에서든 DLAMI든 학습하시는거는 원하시는 사양에 맞춰 하시면 됩니다.


  • avatar
    2020-07-03 김태식

    [질문] 세이지메이커 알고리즘을 훈련하려면 S3 내의 특정 부분과 사용할 인스턴스를 선택하기만 하면 되고, 클릭 한 번으로 별도의 클러스터와 소프트웨어 정의 네트워크가 만들어지고, 이 클러스터는 실제 훈련을 시작하기 위한 확장성과 데이터 파이프라인을 지원해서. 훈련이 끝나면 클러스터를 삭제하면 된다라고 알고 있는데요, 누구나 이런 훈련과정을 배우는데 있어서 어려움은 없는지요?

  • avatar
    2020-07-03 조창윤

    솔찍히 쉽지많은 않습니다. 말씀하신 모든 과정들을 쉽게/빠르게/싸게 진행할 수 있도록 다양한 기능들을 제공하는데 그런 기능들을 익히고 사용하는데 바로 되지는 않습니다. 다만 그런 기능들을 직접 구현하시거나 몸빵으로 진행하신다면 수배/수십배의 시간/돈이 발생한다고 생각됩니다.


  • avatar
    2020-07-03 김성환

    제조업에서의 머신러닝 적용 구체적인 사례가 궁금합니다.

  • avatar
    2020-07-03 조창윤

    국내 제조쪽 대기업에서는 내부적으로 엄청많은 ML/DL 을 적용중에 있습니다. 물론 제조쪽 대기업에는 Data Scientist 팀이 있으며 가장 일반적인 사례는 수요예측 (Demand Forecasting, 단기/장기 예측), 이상징후 탐지 (장비 센서 데이터를 이용한 불량 판별) 등이 많고 몇몇 고객분들은 RL 도 진행하시는 곳이 있습니다.


  • avatar
    2020-07-03 나미스테원주

    최근 라베러가새로운 job으로 핫합니다
    우리나라에서도 비지니스모델로 어떻게 보고 계시는지요

    그리고
    현재주요 라벨링하는 곳에서 어떤 데이타 분야에 활성화 돼 있는지요

    특히 의료 영상 데이터 라벨링 시행착오 유의점에 대해 부태드립니다

  • avatar
    2020-07-03 bonayaing81

    이미지 3D Lidar 데이터 등이 많이 핫한 곳이고요,
    시행착오방지를 위해 여러 사람이 labeling하게 하고 voting이나 confidence를 추적하는 방식이 있습니다.


  • avatar
    2020-07-03 김태식

    [질문] 세이지메이커의 작동 원리에서, 사용자가 AWS 알고리즘을 선택할 수 있으며, 텐서플로우 같은 유명 프레임워크에서 불러올 수도 있는데요, 텐서플로우 프레임워크가 하는 역활은 무엇인지요?

  • avatar
    2020-07-03 조창윤

    SageMaker 는 당양한 Framework 을 지원하고 있습니다. 말씀하신 Tensorflow 는 물론 PyTouch, MXNet 은 물론 Scikit-learn 을 지원합니다.
    이미 원하시는 Framework 이 설치되어 있다고 생각하시면 됩니다.


  • avatar
    2020-07-03 박선희

    [질문] 이런 네이블링 등의 목적으로 머신러닝을 수행할 때 필요한 영상이미지가 충분히 있어야 할텐데, 좋은 영상들을 충분히 얻을 수 있는 좋은 방법이 있을까요?

  • avatar
    2020-07-03 bonayaing81

    1) 기본적으로 많이 공개된 데이터들을 활용하시고요, 2) 1번 데이터 set에다 업게 specific한 데이터를 추가해서 같이 합니다.


  • avatar
    2020-07-03 automan

    [질문] 아마존 SageMaker로 학교 교육프로그램으로 활용하는 사레가 있나요?

  • avatar
    2020-07-03 조창윤

    알려진 사례는 많지 않습니다. 과거에 GPU 서버를 직접 사셔서 진행하신 경우가 많았고, 최근에 AWS SageMaker 에 대한 문의가 많아지고 있는것은 사실입니다. Cloud 장점에 Machine Learning 을 쉽게하기 위한 방법을 많이 찾으시기 때문입니다.

  • avatar
    2020-07-03 automan

    답변 감사합니다.
    향후 교육 연게된 모델링 시에 연락드리겠습니다.


  • avatar
    2020-07-03 박미유

    [질문]지금 설명하고 계시는 레이블링 작업에서 어떤 특정 회사나 특정 집단에서만 작업을 하면 레이블링 기준(?)이 동일할 것 같지만 만약 다른 회사나 집단에서도 작업한 것들, 즉 이종 집단에서 레이블링 한 데이터들을 하나로 묶으려 할 때 문제가 생길 것도 같은데(가령 데이터처리시의 샘플링 문제 등) 그건 어떻게 처리를 하나요?

  • avatar
    2020-07-03 bonayaing81

    여려 명에게 배포하는 방식과 과거 labeling하시던 분의 정확도에 따라 해당분의 label에 좀더 weight를 줘서 confidence를 계산하는방법들이 있습니다.


  • avatar
    2020-07-03 김태식

    [질문] 세이지메이커는 기업용 앱을 위한 머신러닝 알고리즘을 개발, 학습, 적용하는 플랫폼으로 인프라 프로비저닝과 관리, 학습 모델 튜닝 등 그동안 머신러닝 개발 시 일반적으로 필요했던 수작업을 상당 부분 없애 주는것으로 알고 있는데요, 일반적인 머신런닝 처리방식에 비해서 AWS 세이지메이커만의 특화된 장점이 있는지요?

  • avatar
    2020-07-03 조창윤

    말씀하신것 처럼 결론은 개발/학습/배포 입니다. AWS SageMaker 을 이용해서 쉽고/빠르게/싸게 진행할 수 있는 것이 특장점이며 이를 위해서 SageMaker 의 정말 많은 기능들이 존재합니다. Autopilot, Processing, Debugger, Monitor, Tuning, Inference flow 등등등. 또한 당연히 AWS Cloud 의 여러 서비스들과 Integration 되어서 진행되기 때문에 SageMaker 의 장점 + AWS Cloud 의 장점이 도움을 줍니다.

  • avatar
    2020-07-03 박우일

    많은 도움이 되는 질문 답변입니다 . 감사합니다.