Milion-X AI를 위해 필요한 제반 기술들은 NVIDIA의 최근 변화를 살펴보시면 힌트를 잘 얻으실 수 있습니다. DL 도메인에서 가속은 가속기의 연산처리속도가 기본적으로 중요하며, 사용하는 datatype에서의 가속성능을 잘 확인하셔야하고, 연산기의 수를 늘여가는 scalability그리고 그때 복수개의 연산기 활용시 성능도 linear하게 증가하는 지가 중요합니다. NVIDIA는 이부분을 위하여 GPU DirectRDMA기술을 기반으로 GPU간 연결에 NVLINK NVSwitch, 심지어는 Node간에서도 GPU간 direct 연결 bandwidth 및 latency보장을 위해 Infiniband를 사용하길 권장하며, 최근 GTC에서는 NVLINK external 을 발표하기도 하였습니다.
클러스터 구성시 VM당 공유볼륨에 대해 iscsi ip를 설정해야하는데요, 해당 ip설정시 CVM IP와 동일한대역을 써야만 원활한 통신이 되던데요.. CVM과 다른대역으로 공유볼륨ip를 설정했을때는 패킷손실이 났었습니다. 이점은 개선이 되었나요?
이 부분은 네트워크 구성을 어떻게 하엿는지 확인이 필요합니다.
뉴타닉스내에 여러 ip대역이 구성되어 있습니다. (vlan)
vlan 이 아닌, 물리적인 구성, 즉 라우팅등을 확인할 필요가 있습니다. 정확한 구성및 설정에 대한 정보가 없이는 회신을 드리기 힘듭니다. 저희 기술지원팀에 문의해 보셨는지요??
질문] Million-X AI를 가속화하기 위해서 필요한 제반 사항들에 대해서 질문드립니다