새로 출시된 AWS GPU 기반 EC2 인스턴스 G4의 성능 비교

2902 단어 CUDAAWS

소개



경로 탐색 엔진의 연구 개발을 하고 있는 M.Y입니다.

네비타임 재팬에서는, 2019/07/30, 자전거 NAVITIME를 향해 GPU에 의한 탐색 엔진을 출시 했습니다. 출시 시점에서 P2 인스턴스를 사용했지만 2019/09/20에 NDIVIA GPU의 최신 아키텍처인 Turing을 채택한 AWS EC2 인스턴스 G4가 런치되었습니다.

거기서 조속히 퍼포먼스를 조사했습니다만, 다른 GPU 탑재 EC2 인스턴스에 비해 압도적으로 코스파가 좋았기 때문에, 곧바로 G4 인스턴스로 전환했습니다. 그 때 실시한 다른 GPU 인스턴스와의 성능과 비용의 비교 결과를 소개합니다.

G4 인스턴스 정보



NVIDIA의 최신 아키텍처인 Turing을 채용한 GPUTesla T4를 탑재한 EC2 인스턴스입니다. 2019년 3월에 개최된 GTC 20191에서 AWS에서 인스턴스 제공을 발표하여 2019년 9월에 사용할 수 있게 되었습니다.

사양 및 각 인스턴스에 대한 주문형 요금은 아래 표와 같습니다. 최신 아키텍처에도 불구하고 G4 인스턴스 비용이 저렴합니다.



아키텍처
CUDA 코어 수
장치 메모리
온디맨드 요금


p2.xlarge
Kepler
2496
12GB
1.542 $/hr

p3.2xlarge
Volta
5120
16GB
4.194 $/hr

g4dn.xlarge
Turing
2560
16GB
0.71 $/hr


벤치마크



측정 조건



GPU를 이용한 자전거 네트워크 탐색 엔진으로 탐색 거리마다(6~1400km)에 아키텍처 비교를 실시했습니다.
비교한 것은 위에서 설명한 각 아키텍처의 인스턴스입니다.

측정 결과





여기가 절대치로의 비교입니다.



여기가 P2의 탐색 시간을 100으로 했을 때의 각 아키텍처의 처리 시간의 비율입니다.

P3의 퍼포먼스는 엄청나고, P2에 비해 평균 3.17배의 고속화가 되었습니다. 그러나 비용이 P2와 비교하면 2.71배로 상응하는 비용이 든다.

G4도 P2와 CUDA 코어 자체의 수는 거의 변하지 않았음에도 불구하고 P2에 비해 평균 1.81배의 고속화가 가능하다. 게다가 비용이 0.46배가 됩니다.

즉, P3는 비용을 들여 빨리 하고 있는 것과 같지만, G4는 비용이 저렴해지기 위해 빨라졌습니다.



아키텍처
P2와의 속도차
P2와의 비용차
P2와의 비용 성능


p3.2xlarge
Volta
3.17
2.71
1.17

g4dn.xlarge
Turing
1.81
0.46
3.93


요약



P2 인스턴스를 사용하는 분은 G4 인스턴스의 이용을 적극적으로 검토합시다.

이번 비교는 GPGPU에서의 성능 비교였지만, G4 인스턴스에서는 앞에서 설명한 대로 Turing 아키텍처인 Tesla T4를 이용하고 있으며, 이 GPU에는 기계 학습 계산에 특화된 프로세서인 Tensor Core도 탑재되어 따라서 P2 인스턴스와 비교하면 기계 학습에서의 성능도 확실히 올라가고 있다고 생각하므로 이용을 검토할 가치가 있다고 생각합니다.



새너제이에서 매년 개최되는 NVIDIA 기술 컨퍼런스

좋은 웹페이지 즐겨찾기