이미지 3D Lidar 데이터 등이 많이 핫한 곳이고요,
시행착오방지를 위해 여러 사람이 labeling하게 하고 voting이나 confidence를 추적하는 방식이 있습니다.
[질문] 이런 네이블링 등의 목적으로 머신러닝을 수행할 때 필요한 영상이미지가 충분히 있어야 할텐데, 좋은 영상들을 충분히 얻을 수 있는 좋은 방법이 있을까요?
1) 기본적으로 많이 공개된 데이터들을 활용하시고요, 2) 1번 데이터 set에다 업게 specific한 데이터를 추가해서 같이 합니다.
[질문]지금 설명하고 계시는 레이블링 작업에서 어떤 특정 회사나 특정 집단에서만 작업을 하면 레이블링 기준(?)이 동일할 것 같지만 만약 다른 회사나 집단에서도 작업한 것들, 즉 이종 집단에서 레이블링 한 데이터들을 하나로 묶으려 할 때 문제가 생길 것도 같은데(가령 데이터처리시의 샘플링 문제 등) 그건 어떻게 처리를 하나요?
여려 명에게 배포하는 방식과 과거 labeling하시던 분의 정확도에 따라 해당분의 label에 좀더 weight를 줘서 confidence를 계산하는방법들이 있습니다.
[질문] 세이지메이커는 기업용 앱을 위한 머신러닝 알고리즘을 개발, 학습, 적용하는 플랫폼으로 인프라 프로비저닝과 관리, 학습 모델 튜닝 등 그동안 머신러닝 개발 시 일반적으로 필요했던 수작업을 상당 부분 없애 주는것으로 알고 있는데요, 일반적인 머신런닝 처리방식에 비해서 AWS 세이지메이커만의 특화된 장점이 있는지요?
말씀하신것 처럼 결론은 개발/학습/배포 입니다. AWS SageMaker 을 이용해서 쉽고/빠르게/싸게 진행할 수 있는 것이 특장점이며 이를 위해서 SageMaker 의 정말 많은 기능들이 존재합니다. Autopilot, Processing, Debugger, Monitor, Tuning, Inference flow 등등등. 또한 당연히 AWS Cloud 의 여러 서비스들과 Integration 되어서 진행되기 때문에 SageMaker 의 장점 + AWS Cloud 의 장점이 도움을 줍니다.
많은 도움이 되는 질문 답변입니다 . 감사합니다.
[질문] 제가 알기로는 아마존 웹 서비스에서 머신러닝 플랫폼 '세이지메이커를 2017년 12월에 공개를 했는데요, 이를 이용하면 AWS 서비스 사용자가 인공지능(AI) 알고리즘을 더 쉽게 활용할 수 있는데요, 세이지메이커 공개이후 지금까지 업데이트가 어느 수준까지 되었는지 궁금 합니다.
작년 2019 reinvent(Dec) 에서만 새로 나온 서비스가 및 기능들이 대략적으로 나열해도 debugger, model monitor, A2I studio spot적용, kubflow/airflow operator, TF2 제공, processing, experiment등이 나왔습니다.
[질문] Amazon SageMaker Studio 도 azure AI studio 처럼 동일한 데이터에 대해서 인공지능 룰들을 다르게 적용해서 결과값을 비교해 볼 수 있나요?
당연히 동일한 알고리즘과 동일한 데이터셋이 있으시다면 비교 가능하십니다. 하지만 동일한 알고리즘을 사용했더라도 Hyper-parameter 튜닝 정도에 따라서 결과의 차이는 있습니다. 그렇기 때문에 AWS 또는 Azure 어느쪽에서 더 결과가 좋다는 방향보다 얼마나 편하게, 쉽게, 싸게 좋은 결과를 얻느냐에 집중해주시는 것이 좋을것으로 판단됩니다.
[질문] 데이터 처리과정 중에 정형데이터 비정형데이터 처리 방식의 런닝 훈련 차이는 무엇인가요?
어찌됐든 다 수치로 바꿔야 하고요 이미지는 RGB로 정의로 하고요 언어는 word단위로 보통 수치화 합니다.
답변감사합니다. 혹 AWS에서 사용하는 방법이신건가요? 아님 타사에서도 보편적으로 사용하는 방법인가요?
최근 라베러가새로운 job으로 핫합니다
우리나라에서도 비지니스모델로 어떻게 보고 계시는지요
그리고
현재주요 라벨링하는 곳에서 어떤 데이타 분야에 활성화 돼 있는지요
특히 의료 영상 데이터 라벨링 시행착오 유의점에 대해 부태드립니다