• avatar
    2020-07-10 FBI

    [질문] 인공지능에 머신러닝이 현재 대세라고 할 수 있나요

  • avatar
    2020-07-10 AWS-박준

    좋은 질문 감사합니다. 인공지능(Artificial Intelligence) 의 개념과 머신러닝의 개념을 보다 자세히 살펴본다면, 인공지능은 좀더 포괄적인 컴퓨터의 로직을 통해 인풋과 아웃풋이 제공되는 큰 개념으로 정의할 수 있으며, 머신러닝은 인공지능이라는 큰 개념속에 좀더 세부적인 개념으로 기계에게 학습을 통해서 인풋에 대한 좀더 능동적인 아웃풋을 제공한다고 볼 수 있습니다.

    해서, 대세라는 관점에서는 머신러닝이 인공지능의 진화된 모습이고, 이를 좀더 세분화하여 딥러닝 등이 현재 논의/사용되고 있습니다.

  • avatar
    2020-07-10 FBI

    자세한 설명 감사드립니다


  • avatar
    2020-07-03 박선희

    [질문] Model은 그냥 1개만 만들어서 하면 된다고 생각했는데, 개수에 대한 고민도 필요하다는 것을 처음 알았습니다. 모델개수를 정하는 일도 쉽지 않을 듯 한데 정하는 효율적인 기준이 있을까요?

  • avatar
    2020-07-03 bonayaing81

    결과를 보면서(F1 score, loss, RoC, accuracy등등) 알고리즘을 바꿔보고 같은 알고리즘에서도 여러가지 HPO튜닝을 하시는데요. 그거는 목표하시는 게 맞을때까지 해보시는 거죠. 사실 몇개가 정답이란게 없습니다.


  • avatar
    2020-07-03 엄정용

    딥러닝 서버는 GPU에 따라 이미지, 텍스트 등 원천 소스 분석에 퍼포먼스가 다르다고 알고 있는데, AWS에서 제공라는 GPU는 어떤 종류의 것들이 있으며, 이용체계는 어떻게 되나요?

  • avatar
    2020-07-03 bonayaing81

    GPU는 보통 학습용 vs. 추론용으로 나뉩니다. 학습용으로는 nvidia v100이 설치된 P2/P3 instance를 선호하시고, 추론용으로는 nvidia T4 가 설치된 G4 instance계열을 선호하십니다.


  • avatar
    2020-07-03 서원준

    [질문] 세이지메이커를 조금 더 깊이 배우려면 어떤 소프트웨어, 혹은 언어를 기본적으로 익혀야 하는지요. 궁금합니다.

  • avatar
    2020-07-03 bonayaing81

    기본적으로 모든 deeplearning platform(Tensorflow, pytorch, mxnet)등은 python으로 작성 되어 있습니다. 그리고 Sagemaker SDK도 python을 활용합니다. 그밖에 sklearn같은 주요 ML용 파이선 라이브리들리 굉자히 잘 쓰이고 있습니다. 그래서 python정도 아시면 좋을거 같습니다.

  • avatar
    2020-07-03 서원준

    아. 파이썬이군요. 감사합니다.


  • avatar
    2020-07-03 귀염꽃사슴

    [질문] Data Preparation에 사실 많은 시간이 소요되는데, 이를 위한 노하우나 지원 도구들이 어떤 것들이 있을까요?

  • avatar
    2020-07-03 조창윤

    Autopilot 을 사용하시면 결과물중에 하나가 전처리을 진행할 수 있는 Notebook 파일이 생성됩니다. 당연히 데이터셋마다 Notebook 파일의 내용이 바뀌겠죠. 이런 경험들은 이런 결과물을 보시거나 책/Kaggle 등에서 많이 보시고 고민하고 하셔야 하는 부분이라고 판단됩니다.
    (고수분들의) 많은 분들의 의견이 실제 훈련은 중요하지 않고 데이터를 찾고 전처리 하는것이 가장 중요하고 그것이 80% 이상의 작업이라는 말씀을 많이 하십니다.


  • avatar
    2020-07-03 김태식

    [질문] 아마존 세이지메이커는 AWS 콘솔을 통해 프리뷰 버전을 사용할 수 있고, 무료 서비스인 AWS 프리 티어 로 무료로 사용할 수도 있는데요, 이때 이용 요금이 발생한다고 하는데요, 어떤 비용이 발생 하는지요?

  • avatar
    2020-07-03 bonayaing81

    비용관련해서는 저희 AWS Pricing page를 확인하시는 방법이 가장 정확합니다. 비용 체계가 굉장히 세분화 되어 있어 여기서 확인해 보시는게 정확합니다. https://aws.amazon.com/sagemaker/pricing/


  • avatar
    2020-07-03 정상문

    [질문] 여담이지만, 오토ML의 발전 추이를 데이터 과학자들이 따라잡기 힘들것 같다는 생각이 듭니다. 데이터 과학자를 꿈꾸는 학생들에게 조언을 해주신다면...? 설마 데이터 과학자가 필요없는 세상이 오는건 아니겠죠.

  • avatar
    2020-07-03 bonayaing81

    아닙니다. 데이터 사이언티스트가 더 필요합니다. 업계 지식과 데이터에 대한 insight가 있을수록 더 좋은 결과가 나옵니다.


  • avatar
    2020-07-03 박선희

    [질문] 세이즈메이커에서 학습하기전에 데이타 전처리는 따로 해주지 않아도 자동으로 해주는 것인가요? 예를들면, 이미지들의 사이즈 맞추기 등

  • avatar
    2020-07-03 조창윤

    Autopilot 는 Feature 에 대해서 자동으로 전처리를 합니다. Autopilot 을 사용하지 않는다면 직접 (노하우를 가지고) 해주셔야 합니다.
    다만 현재 Autopilot 이 지원하는 Problem type 이 linear regression 과 logistic regression 만 지원하기 때문에 이미지 처리는 Autopilot 을 사용하실수 없습니다.
    이미지관련 SageMaker 의 built-in 알고리즘을 사용하셔야 하고 직접 전처리 하셔야 합니다. :(


  • avatar
    2020-07-03 방극민

    (질문) 인공지능으로 알고리즘은 기존 대이터의량에 따라 결과치의 정확도를 예측가능하게되나요? 아니면, 기존의 학습에 따라서 결정되는 건가요?

  • avatar
    2020-07-03 조창윤

    데이터가 많아도 필요한 데이터가 없다면 정확도는 낮을수밖에 없구요. 데이터에 대한 Ingest 가 가장 중요한 이유입니다. 계속해서 노력해서 데이터를 모으고 고민하고 ML 학습해보고 끊임없는 노력을 통해서 정확도를 높이는것이 일반적이라 판단됩니다.


  • avatar
    2020-07-03 CoolGuy

    [질문] 라벨링의 형태가 Public, Private, Vendors로 되어 있던데 데이터셋을 제작할 때 어떻게 구성하는 것이 효율성이 좋은지 답변 부탁드립니다.

  • avatar
    2020-07-03 bonayaing81

    데이터 민감도와 워크로드의 성질에 따라 다를거 같습니다. 아까 말씀 드린 이미지 관련 (언어와 무관한 작업이라면) public이 어울리겠지만 한국어를 보고 negative postive 분류해주길 바란다면 private으로 꾸리서야 할겁니다. 그리고 데이테가 외부에 공개 되도 되는지 아닌지에 따라 정하실수 있을듯 합니다.

  • avatar
    2020-07-03 CoolGuy

    답변 감사드립니다.


  • avatar
    2020-07-03 이종우

    [질문] 새로운 알고리즘에 대해서 자유 업데이트가 가능한가요?

  • avatar
    2020-07-03 조창윤

    직즙 마드신 새로운 알고리즘이 있으시다면 Docker 로 구워서 ECR (Elastic Container Register) 에 등록하시고 ECS (Elastic Container Service, Docker) 을 쓰시면 됩니다.
    즉 Built-in 알고리즘을 쓰실때는 ECR URI (정보) 을 설정하지 않지만 직접 만드시고 등록한 Docker 에 대해서는 URI (주소) 을 지정하셔야 하는 차이가 존재합니다.


  • avatar
    2020-07-03 LJW

    [질문]Amazon SageMaker Studio 의 우수 성공사례가 있나요?

  • avatar
    2020-07-03 bonayaing81

    Sagemaker Studio는 최근 오픈한 서비스 여서 제가 많은 사례를 다 알지는 못하지만 https://aws.amazon.com/sagemaker/customers/ 에 가시면 좀 도움이 되실거 같습니다.


  • avatar
    2020-07-03 ho

    [질문]아마존 서지메이커 워크플로는 정해진 포맷을 지원하는지요?확장된 워크플로는 부분 변경이 가능한지 문의합니다.

  • avatar
    2020-07-03 조창윤

    SageMaker 의 각 Job 들 (Processing Job, Training Job, Hosting Job 등) 에 대한 Workflow 말씀하시는 거라면 AWS Stepfunction 이나 Apach Airflow 또는 Kuberflow 을 사용하실수도 있습니다.


  • avatar
    2020-07-03 박선희

    [질문] s3가 아닌 다른 원격지에 있는 데이타를 이용하는 것도 가능한가요? 3s와 마찬가지로 데이타다운로드에 대한 과금이 안되나요?

  • avatar
    2020-07-03 bonayaing81

    일단은 S3로 무조건 이전해 와있어야합니다. Data transfer out비용은 발생합니다. 하지만 sagemaker와 S3사이의 데이터 transfer는 비용이 발생하지 않습니다.


  • avatar
    2020-07-03 이세원

    [질문] 알고리즘의 성능이 인공지능의 질적 차이를 가져올것 같은데 이에 대한 차별화된 특징이 있는지요?

  • avatar
    2020-07-03 bonayaing81

    지금 보시는 18가지 알고리즘은 이미 업계에서 표준화된 알고리즘입니다. 딥러닝이 아닌 것과 딥러닝이 아닌것이 합쳐져 있습니다.
    일반적인 워크로드에 최적화 됬다고 보시는게 맞습니다.


  • avatar
    2020-07-03 김태식

    [질문] 기존까지 모델 튜닝은 시행착오 방식으로 진행이 되었고. 해보고 안되면 다른 대안을 찾는 식이었는데요. 그러나 세이지메이커는 이른바 HPO 방식을 사용하여 간단한 클릭만으로 훈련 모델의 여러 복사본이 만들어지고, 머신러닝을 이용해 각 변화를 동시에 검토하여, 이 검토 결과에 따라 변수를 튜닝을 하는데요, HPO 방식에 관한 설명을 요청 드립니다.

  • avatar
    2020-07-03 조창윤

    말씀하시는 바와 같이 ML 은 '데이터셋' 부터 '배포/서비스/모니터링' 까지 엄청남 노력과 반복작업입니다. Feature Engineering 을 하게 되면 다시 HPO 진행하셔야 한다는점 미리 말씀드립니다.
    엄청나게 Engineering 을 진행한 데이터셋이 있다고 가정하였을때 제가 사용하려는 알고리즘 (예, xgboost) 을 선택하면 알고리즘의 static parameter 를 고정하시고 tuning 할 parameter 을 정의하시면 됩니다. Tuning 하려는 parameter 별로 range 을 주시면 HPO 후에 해당 range 에서 어떤 값이 가장 Best 다라고 결과가 나옵니다.
    추가로 한번 HPO 후 완료하는 것이 아니라 range 을 처음에는 조금 크게, 그 다음은 조금 작게...이런식으로 몇번을 하시는것을 추천드립니다.


  • avatar
    2020-07-03 전영진

    [질문] 주요 알고리즘은 DLAMI으로 직접 python 코드로 구성하면서 SageMaker Ground Truth의 레이블링을 병용하는 것이 가능한지 그리고 혹시 병용할 수 있는 다른 더 좋은 레이블링 방법이 있는지 궁금합니다.

  • avatar
    2020-07-03 bonayaing81

    DLAMI는 학습을 위한 전용 framework들이 설치된 OS+framework+packes 인 이미지 이고요, 여기 위에서 학습을 위해 필요한 데이터를 준비하시는 과정에서 GroundTruth(GT)를 사용하실수 있습니다. GT에서 나온 결과를 가지고 sagemaker에서든 DLAMI든 학습하시는거는 원하시는 사양에 맞춰 하시면 됩니다.


  • avatar
    2020-07-03 김태식

    [질문] 세이지메이커 알고리즘을 훈련하려면 S3 내의 특정 부분과 사용할 인스턴스를 선택하기만 하면 되고, 클릭 한 번으로 별도의 클러스터와 소프트웨어 정의 네트워크가 만들어지고, 이 클러스터는 실제 훈련을 시작하기 위한 확장성과 데이터 파이프라인을 지원해서. 훈련이 끝나면 클러스터를 삭제하면 된다라고 알고 있는데요, 누구나 이런 훈련과정을 배우는데 있어서 어려움은 없는지요?

  • avatar
    2020-07-03 조창윤

    솔찍히 쉽지많은 않습니다. 말씀하신 모든 과정들을 쉽게/빠르게/싸게 진행할 수 있도록 다양한 기능들을 제공하는데 그런 기능들을 익히고 사용하는데 바로 되지는 않습니다. 다만 그런 기능들을 직접 구현하시거나 몸빵으로 진행하신다면 수배/수십배의 시간/돈이 발생한다고 생각됩니다.


  • avatar
    2020-07-03 김성환

    제조업에서의 머신러닝 적용 구체적인 사례가 궁금합니다.

  • avatar
    2020-07-03 조창윤

    국내 제조쪽 대기업에서는 내부적으로 엄청많은 ML/DL 을 적용중에 있습니다. 물론 제조쪽 대기업에는 Data Scientist 팀이 있으며 가장 일반적인 사례는 수요예측 (Demand Forecasting, 단기/장기 예측), 이상징후 탐지 (장비 센서 데이터를 이용한 불량 판별) 등이 많고 몇몇 고객분들은 RL 도 진행하시는 곳이 있습니다.


  • avatar
    2020-07-03 나미스테원주

    최근 라베러가새로운 job으로 핫합니다
    우리나라에서도 비지니스모델로 어떻게 보고 계시는지요

    그리고
    현재주요 라벨링하는 곳에서 어떤 데이타 분야에 활성화 돼 있는지요

    특히 의료 영상 데이터 라벨링 시행착오 유의점에 대해 부태드립니다

  • avatar
    2020-07-03 bonayaing81

    이미지 3D Lidar 데이터 등이 많이 핫한 곳이고요,
    시행착오방지를 위해 여러 사람이 labeling하게 하고 voting이나 confidence를 추적하는 방식이 있습니다.