pretrain 모델의 경우, 기업들이나 다양한 연구기관에서 공개된 모델을 사용할 수 있겠지만, 특정 태스크 수행을 위한 fine-tuning시에는 결국 데이터셋을 구축해야하는데, 기계독해, 번역, NER, STS 등 과 같은 fine-tuning용 데이터셋 구축하는 것 자체가 너무나 어렵습니다, 따라서 결국 많지 않은 오픈된 데이터셋을 사용할 수 밖에 없고, 기대하는 성능을 기대하기 어렵더라구요. 데이터셋 품질이 않좋다면 모델링 아무리 잘해도 성능 개선하기 어렵다고 생각하는데 어떻게 생각하시나요?
[질문] VM과 컨데어너의 가장 큰 차이점은 GUEST os의 유무인데 이 GUEST OS가 무겁고 이에 대한 화환성에 문제가 있어서 인것으로 생각되는데 컨테이너가 수만개 만들어서 그것은 관리하기가 어려운데 컨데이터의 구성요소를 좀 더 늘리고 그 수를 줄여서 관리를 좀 더 쉽게 할 수 있는 방안은 없는지요?
pretrain 모델의 경우, 기업들이나 다양한 연구기관에서 공개된 모델을 사용할 수 있겠지만, 특정 태스크 수행을 위한 fine-tuning시에는 결국 데이터셋을 구축해야하는데, 기계독해, 번역, NER, STS 등 과 같은 fine-tuning용 데이터셋 구축하는 것 자체가 너무나 어렵습니다, 따라서 결국 많지 않은 오픈된 데이터셋을 사용할 수 밖에 없고, 기대하는 성능을 기대하기 어렵더라구요. 데이터셋 품질이 않좋다면 모델링 아무리 잘해도 성능 개선하기 어렵다고 생각하는데 어떻게 생각하시나요?