순수 Matrix연산을 비교해보면 20x의 성능향상이 있고 BERT 모델 학습 시 기존 V100 FP16연산 대비 6배의 성능 향상을 보여줍니다. FP32대비라면 더 많은 성능 향상을 기대할 수 있습니다.
이전 세대의 TensorCore는 FP32 및 FP64가 지원되지 않았고 CUDA core만 활용했기 때문에 throughput 면에서 TensorCore를 해당 datatype에서 활용할 수 있는 A100에서는 엄청난 성능향상을 이룰 수 있었습니다.
[질문] 클라우드라고 하면 무조건 공기관 제안영업에 철옹성 같은 벽이 큽니다. 도입에 필요한 데모와 Certi 그리고 동등 보장성이 증명되어야 해서 참 어렵습니다. 이에 대한 영업 사례등을 일부 공개나 소개 부탁합니다.
[질문] 작년에 Nvidia 컨퍼런스에서 FP32가 FP16보다 드라마틱하게 성능이 빠르지 않다고 했었던게 기억나는데 FP16에서는 어느정도 성능의 개선이 되었나요?