순수 Matrix연산을 비교해보면 20x의 성능향상이 있고 BERT 모델 학습 시 기존 V100 FP16연산 대비 6배의 성능 향상을 보여줍니다. FP32대비라면 더 많은 성능 향상을 기대할 수 있습니다.
이전 세대의 TensorCore는 FP32 및 FP64가 지원되지 않았고 CUDA core만 활용했기 때문에 throughput 면에서 TensorCore를 해당 datatype에서 활용할 수 있는 A100에서는 엄청난 성능향상을 이룰 수 있었습니다.
[질문] 작년에 Nvidia 컨퍼런스에서 FP32가 FP16보다 드라마틱하게 성능이 빠르지 않다고 했었던게 기억나는데 FP16에서는 어느정도 성능의 개선이 되었나요?