• avatar
    2020-08-12 이세원

    [질문] 여러 업체들의 클라우드 상품들이 있는데요~ 국내외 유명업체들이 있지만 역시나 AWS가 가장 선두에 있고 기준이 된다고 해서 잘 모르는 경우 무조건 AWS를 선택하려는 경향이 있는 것 같습니다만 좋은 선택기준을 제시해주실수 있을까요?

  • avatar
    2020-08-12 오라클MY

    고객사의 상황 및 요구 상황에 따라 각 클라우드사의 장점을 잘 분석 하셔서 선택 하시면 됩니다. 저희 오라클 클라우드는 타사 대비 DB 서비에 강점이 있으며 비용이 저렴합니다.


  • avatar
    2020-07-10 윤군

    [질문] 인공지능과 머신러닝에 대하여 공부를 많이 해야 할 것 같은데요. 혹시 Skill 로드맵을 그린다면 어떤 순서로 공부해 가야 할까요?

  • avatar
    2020-07-10 AWS-박준

    질문 감사합니다. 머신러닝/딥러닝/인공지능등 기술분야에 입문 순서를 질문 주신것으로 이해했습니다. 우선 접근 난이도를 생각해보았을때, 인공지능을 서비스화하여 API 를 통해 접근 가능한, AWS 의 Amazon Rekognition, Comprehend, Textract, Translate 등 다양한 서비스의 이용이 조금 쉬울 수 있을것 같습니다. 해당 서비스를 이용해 보시다가 좀더ㅓ 내 업무에 알맞는 맞춤화 된 기능이 필요시에 머신러닝, 딥러닝으로 접근하면 조금 더 쉽지 않을까 하는 개인적인 생각이 있습니다.

  • avatar
    2020-07-10 윤군

    답변 감사합니다.


  • avatar
    2020-07-10 전영진

    그리고, 이러한 경우, Data Lake의 자료에 대해 버전 관리를 하려면 AWS S3에 들어온 자료에 대해 S3의 버전 관리 기능을 이용하는 것인지 아니면 FindMatches 같은 ML Data Set을 위한 별도의 버전 관리 제품이 있는지도 알려주시면 좋겠습니다. (질문 2)

  • avatar
    2020-07-10 AWS-박준

    질문 감사합니다. Data Set 의 관점에서 생각해본다면, 버전 관리를 기본적으로 지원하는 S3를 이용하시면 저렴한 금액으로 다수의 데이터를 저장하고 이용하실 수 있습니다. 버저닝된 자료들이 저장된 저장소의 저장금액 역시 중요한 부분으로서, 저렴하며, 높은 내구성을 제공하며 빠른 integration 을 제공하는 서비스를 이용하시면 편리하리라 생각됩니다.

  • avatar
    2020-07-10 전영진

    답변 고맙습니다. S3의 존재를 처음 알게 되었을 때의 감동이 다시 떠오릅니다. S3 제품 중에서 적절히 서비스를 선택하라는 말씀으로 이해하면 될까요? 혹시 S3 외에 제가 아직 모르는 다른 좋은 서비스가 더 있는지에 대해 조금 불안합니다.


  • avatar
    2020-07-10 CoolGuy

    [질문] SageMaker에서 Model Deployment 이후에 Predictions가 있는데 Deployment이전의 Business Goals와 어떤 차이가 있는 것인지요?

  • avatar
    2020-07-10 AWS SA

    Deployment이전에는 모델의 성능에 보다 중점을 두게 되실 것이고 deployment이후에는 모니터링과 안정적 운영에 대한 Goal이 추가되지 않을까 생각됩니다. 일반적으로 실제 운영에 ML deployment를 적용하시고 나면 이를 운영하시면서 자연스럽게 해당 모델 개선에 대한 새로운 인사이트를 다시 얻으시곤 합니다.

  • avatar
    2020-07-10 CoolGuy

    답변 감사드립니다.


  • avatar
    2020-07-10 영어인니어가이드

    결국 만든 Model은 어떤 형태 입니까?
    구체적인 샘플을 제시해 주십시요.

  • avatar
    2020-07-10 AWS SA

    모델의 형식은 사용하시는 프레임워크에 따라 다릅니다. 예를 들어 Tensorflow인 경우에는 pb파일 또는 checkpoint라고 불리는 형태로 만들어집니다. SK learn과 같은 프레임워크로 모델을 만드시는 경우에는 일반적으로 pickle 과 같은 형태로 만들어집니다. 프레임워크에 따라 모델의 형태가 달라지고 또 실행환경도 달라지게 됩니다.


  • avatar
    2020-07-10 Lisayg

    [질문] AWS 공인 머신러닝 자격증이 있다고 들었습니다. 연말 도전을 해볼까 하는데 취득 시 MVP같은 타이틀, 클라우드 할인 혜택이 있는지 궁금합니다.

  • avatar
    2020-07-10 AWS-박준

    AWS 공인 머신러닝 자격증의 경우, 보다 자세한 내용을 아래의 링크를 통해 안내드리고 있습니다.
    https://aws.amazon.com/ko/certification/certified-machine-learning-specialty/?nc1=h_ls

    자격증 취득 후, 혜택이나 다양한 이벤트 관련 안내 내용은 아래를 확인 부탁드립니다.
    https://aws.amazon.com/ko/certification/benefits/

    MVP 와 유사한 SME program 및 Heroes 프로그램 안내: https://aws.amazon.com/ko/certification/certification-sme-program/


  • avatar
    2020-07-10 방극민

    [질문] 머신러닝에 인공지능을 접목할때 가장 중점을 두어야할 사항은 무엇이라고 생각하시는지요?

  • avatar
    2020-07-10 AWS SA

    빠른 실험과 많은 시도가 아닐까 생각됩니다. 작은 목표로부터 시작하여 문제를 해결하면서 기능들을 추가해나가면서 성능을 개선시켜 나가는 방식을 적용하시는 기업에서 가장 빠르게 혁신을 만들어 가시는 것을 보아왔습니다.


  • avatar
    2020-07-10 김수열

    [질문] MLOps 의 모델검증시에 검증데이타셋은 사용자가 수시로 업데이트 가능한가요? 또한 타 솔루션에서의 검증데이터를 가져와서 사용할 수 있는지요?

  • avatar
    2020-07-10 AWS-박준

    MLOps 환경에서 CI/CD Pipeline 을 통하여 다수의 검증과정을 거쳐 수시로 업데이트를 통해 보다 높은 정확도나 수치에 접근하시는것이 추천됩니다. 검증데이터는 사용하시는 모델이 동일하다면 기존 데이터를 가져와서 사용하실 수 있습니다.


  • avatar
    2020-07-10 soribza

    [질문] 흔히들 얘기하는게 Data Pipeline 단을 구성하는게 전체 업무의 대부분을 차지한다고 얘기합니다. 오늘 주제인 배포와 운영 관점에서 두 Pipe Line 구성에 어느 정도 비율로 Resource가 할당되어야 할까요?

  • avatar
    2020-07-10 AWS SA

    문제마다 달라질 것이기 때문에 정확한 비율로 얘기하기는 어렵겠지만 데이터파이프라인의 경우가 일반적으로 훨씬 많은 리소스가 소요됩니다. 데이터 파이프라인에서 관리해야 하는 데이터의 양이 더 많기도 하고 데이터의 소스가 추가되거나 운영중 프로그램 변경으로 인해 유입되는 데이터가 약속된 형태에서 바뀌는 등 많은 이슈들이 발생하게 되고 이를 모두 관리하는 데에 많은 툴과 시간을 투자하시게 됩니다.

  • avatar
    2020-07-10 soribza

    답변 감사합니다. 현재 소속된 조직에서도 단기적 성과물에 집착해서 앞단인 Data Pipeline에 대해서는 등한시하는 상황입니다. 그래서 실제 실무자들은 앞단에 발목이 잡히거나 일을 위한 일을 양산하고 있지요...


  • avatar
    2020-07-10 FBI

    [질문] 인공지능에 머신러닝이 현재 대세라고 할 수 있나요

  • avatar
    2020-07-10 AWS-박준

    좋은 질문 감사합니다. 인공지능(Artificial Intelligence) 의 개념과 머신러닝의 개념을 보다 자세히 살펴본다면, 인공지능은 좀더 포괄적인 컴퓨터의 로직을 통해 인풋과 아웃풋이 제공되는 큰 개념으로 정의할 수 있으며, 머신러닝은 인공지능이라는 큰 개념속에 좀더 세부적인 개념으로 기계에게 학습을 통해서 인풋에 대한 좀더 능동적인 아웃풋을 제공한다고 볼 수 있습니다.

    해서, 대세라는 관점에서는 머신러닝이 인공지능의 진화된 모습이고, 이를 좀더 세분화하여 딥러닝 등이 현재 논의/사용되고 있습니다.

  • avatar
    2020-07-10 FBI

    자세한 설명 감사드립니다


  • avatar
    2020-07-03 박선희

    [질문] Model은 그냥 1개만 만들어서 하면 된다고 생각했는데, 개수에 대한 고민도 필요하다는 것을 처음 알았습니다. 모델개수를 정하는 일도 쉽지 않을 듯 한데 정하는 효율적인 기준이 있을까요?

  • avatar
    2020-07-03 bonayaing81

    결과를 보면서(F1 score, loss, RoC, accuracy등등) 알고리즘을 바꿔보고 같은 알고리즘에서도 여러가지 HPO튜닝을 하시는데요. 그거는 목표하시는 게 맞을때까지 해보시는 거죠. 사실 몇개가 정답이란게 없습니다.


  • avatar
    2020-07-03 엄정용

    딥러닝 서버는 GPU에 따라 이미지, 텍스트 등 원천 소스 분석에 퍼포먼스가 다르다고 알고 있는데, AWS에서 제공라는 GPU는 어떤 종류의 것들이 있으며, 이용체계는 어떻게 되나요?

  • avatar
    2020-07-03 bonayaing81

    GPU는 보통 학습용 vs. 추론용으로 나뉩니다. 학습용으로는 nvidia v100이 설치된 P2/P3 instance를 선호하시고, 추론용으로는 nvidia T4 가 설치된 G4 instance계열을 선호하십니다.


  • avatar
    2020-07-03 서원준

    [질문] 세이지메이커를 조금 더 깊이 배우려면 어떤 소프트웨어, 혹은 언어를 기본적으로 익혀야 하는지요. 궁금합니다.

  • avatar
    2020-07-03 bonayaing81

    기본적으로 모든 deeplearning platform(Tensorflow, pytorch, mxnet)등은 python으로 작성 되어 있습니다. 그리고 Sagemaker SDK도 python을 활용합니다. 그밖에 sklearn같은 주요 ML용 파이선 라이브리들리 굉자히 잘 쓰이고 있습니다. 그래서 python정도 아시면 좋을거 같습니다.

  • avatar
    2020-07-03 서원준

    아. 파이썬이군요. 감사합니다.


  • avatar
    2020-07-03 귀염꽃사슴

    [질문] Data Preparation에 사실 많은 시간이 소요되는데, 이를 위한 노하우나 지원 도구들이 어떤 것들이 있을까요?

  • avatar
    2020-07-03 조창윤

    Autopilot 을 사용하시면 결과물중에 하나가 전처리을 진행할 수 있는 Notebook 파일이 생성됩니다. 당연히 데이터셋마다 Notebook 파일의 내용이 바뀌겠죠. 이런 경험들은 이런 결과물을 보시거나 책/Kaggle 등에서 많이 보시고 고민하고 하셔야 하는 부분이라고 판단됩니다.
    (고수분들의) 많은 분들의 의견이 실제 훈련은 중요하지 않고 데이터를 찾고 전처리 하는것이 가장 중요하고 그것이 80% 이상의 작업이라는 말씀을 많이 하십니다.


  • avatar
    2020-07-03 김태식

    [질문] 아마존 세이지메이커는 AWS 콘솔을 통해 프리뷰 버전을 사용할 수 있고, 무료 서비스인 AWS 프리 티어 로 무료로 사용할 수도 있는데요, 이때 이용 요금이 발생한다고 하는데요, 어떤 비용이 발생 하는지요?

  • avatar
    2020-07-03 bonayaing81

    비용관련해서는 저희 AWS Pricing page를 확인하시는 방법이 가장 정확합니다. 비용 체계가 굉장히 세분화 되어 있어 여기서 확인해 보시는게 정확합니다. https://aws.amazon.com/sagemaker/pricing/


  • avatar
    2020-07-03 정상문

    [질문] 여담이지만, 오토ML의 발전 추이를 데이터 과학자들이 따라잡기 힘들것 같다는 생각이 듭니다. 데이터 과학자를 꿈꾸는 학생들에게 조언을 해주신다면...? 설마 데이터 과학자가 필요없는 세상이 오는건 아니겠죠.

  • avatar
    2020-07-03 bonayaing81

    아닙니다. 데이터 사이언티스트가 더 필요합니다. 업계 지식과 데이터에 대한 insight가 있을수록 더 좋은 결과가 나옵니다.


  • avatar
    2020-07-03 박선희

    [질문] 세이즈메이커에서 학습하기전에 데이타 전처리는 따로 해주지 않아도 자동으로 해주는 것인가요? 예를들면, 이미지들의 사이즈 맞추기 등

  • avatar
    2020-07-03 조창윤

    Autopilot 는 Feature 에 대해서 자동으로 전처리를 합니다. Autopilot 을 사용하지 않는다면 직접 (노하우를 가지고) 해주셔야 합니다.
    다만 현재 Autopilot 이 지원하는 Problem type 이 linear regression 과 logistic regression 만 지원하기 때문에 이미지 처리는 Autopilot 을 사용하실수 없습니다.
    이미지관련 SageMaker 의 built-in 알고리즘을 사용하셔야 하고 직접 전처리 하셔야 합니다. :(


  • avatar
    2020-07-03 방극민

    (질문) 인공지능으로 알고리즘은 기존 대이터의량에 따라 결과치의 정확도를 예측가능하게되나요? 아니면, 기존의 학습에 따라서 결정되는 건가요?

  • avatar
    2020-07-03 조창윤

    데이터가 많아도 필요한 데이터가 없다면 정확도는 낮을수밖에 없구요. 데이터에 대한 Ingest 가 가장 중요한 이유입니다. 계속해서 노력해서 데이터를 모으고 고민하고 ML 학습해보고 끊임없는 노력을 통해서 정확도를 높이는것이 일반적이라 판단됩니다.


  • avatar
    2020-07-03 CoolGuy

    [질문] 라벨링의 형태가 Public, Private, Vendors로 되어 있던데 데이터셋을 제작할 때 어떻게 구성하는 것이 효율성이 좋은지 답변 부탁드립니다.

  • avatar
    2020-07-03 bonayaing81

    데이터 민감도와 워크로드의 성질에 따라 다를거 같습니다. 아까 말씀 드린 이미지 관련 (언어와 무관한 작업이라면) public이 어울리겠지만 한국어를 보고 negative postive 분류해주길 바란다면 private으로 꾸리서야 할겁니다. 그리고 데이테가 외부에 공개 되도 되는지 아닌지에 따라 정하실수 있을듯 합니다.

  • avatar
    2020-07-03 CoolGuy

    답변 감사드립니다.


  • avatar
    2020-07-03 이종우

    [질문] 새로운 알고리즘에 대해서 자유 업데이트가 가능한가요?

  • avatar
    2020-07-03 조창윤

    직즙 마드신 새로운 알고리즘이 있으시다면 Docker 로 구워서 ECR (Elastic Container Register) 에 등록하시고 ECS (Elastic Container Service, Docker) 을 쓰시면 됩니다.
    즉 Built-in 알고리즘을 쓰실때는 ECR URI (정보) 을 설정하지 않지만 직접 만드시고 등록한 Docker 에 대해서는 URI (주소) 을 지정하셔야 하는 차이가 존재합니다.