새로 출시된 AWS GPU 기반 EC2 인스턴스 G4의 성능 비교
소개
경로 탐색 엔진의 연구 개발을 하고 있는 M.Y입니다.
네비타임 재팬에서는, 2019/07/30, 자전거 NAVITIME를 향해 GPU에 의한 탐색 엔진을 출시 했습니다. 출시 시점에서 P2 인스턴스를 사용했지만 2019/09/20에 NDIVIA GPU의 최신 아키텍처인 Turing을 채택한 AWS EC2 인스턴스 G4가 런치되었습니다.
거기서 조속히 퍼포먼스를 조사했습니다만, 다른 GPU 탑재 EC2 인스턴스에 비해 압도적으로 코스파가 좋았기 때문에, 곧바로 G4 인스턴스로 전환했습니다. 그 때 실시한 다른 GPU 인스턴스와의 성능과 비용의 비교 결과를 소개합니다.
G4 인스턴스 정보
NVIDIA의 최신 아키텍처인 Turing을 채용한 GPUTesla T4를 탑재한 EC2 인스턴스입니다. 2019년 3월에 개최된 GTC 20191에서 AWS에서 인스턴스 제공을 발표하여 2019년 9월에 사용할 수 있게 되었습니다.
사양 및 각 인스턴스에 대한 주문형 요금은 아래 표와 같습니다. 최신 아키텍처에도 불구하고 G4 인스턴스 비용이 저렴합니다.
아키텍처
CUDA 코어 수
장치 메모리
온디맨드 요금
p2.xlarge
Kepler
2496
12GB
1.542 $/hr
p3.2xlarge
Volta
5120
16GB
4.194 $/hr
g4dn.xlarge
Turing
2560
16GB
0.71 $/hr
벤치마크
측정 조건
GPU를 이용한 자전거 네트워크 탐색 엔진으로 탐색 거리마다(6~1400km)에 아키텍처 비교를 실시했습니다.
비교한 것은 위에서 설명한 각 아키텍처의 인스턴스입니다.
측정 결과
여기가 절대치로의 비교입니다.
여기가 P2의 탐색 시간을 100으로 했을 때의 각 아키텍처의 처리 시간의 비율입니다.
P3의 퍼포먼스는 엄청나고, P2에 비해 평균 3.17배의 고속화가 되었습니다. 그러나 비용이 P2와 비교하면 2.71배로 상응하는 비용이 든다.
G4도 P2와 CUDA 코어 자체의 수는 거의 변하지 않았음에도 불구하고 P2에 비해 평균 1.81배의 고속화가 가능하다. 게다가 비용이 0.46배가 됩니다.
즉, P3는 비용을 들여 빨리 하고 있는 것과 같지만, G4는 비용이 저렴해지기 위해 빨라졌습니다.
아키텍처
P2와의 속도차
P2와의 비용차
P2와의 비용 성능
p3.2xlarge
Volta
3.17
2.71
1.17
g4dn.xlarge
Turing
1.81
0.46
3.93
요약
P2 인스턴스를 사용하는 분은 G4 인스턴스의 이용을 적극적으로 검토합시다.
이번 비교는 GPGPU에서의 성능 비교였지만, G4 인스턴스에서는 앞에서 설명한 대로 Turing 아키텍처인 Tesla T4를 이용하고 있으며, 이 GPU에는 기계 학습 계산에 특화된 프로세서인 Tensor Core도 탑재되어 따라서 P2 인스턴스와 비교하면 기계 학습에서의 성능도 확실히 올라가고 있다고 생각하므로 이용을 검토할 가치가 있다고 생각합니다.
새너제이에서 매년 개최되는 NVIDIA 기술 컨퍼런스 ↩
Reference
이 문제에 관하여(새로 출시된 AWS GPU 기반 EC2 인스턴스 G4의 성능 비교), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/navitime_tech/items/9b01bb67225bf64907f4
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
NVIDIA의 최신 아키텍처인 Turing을 채용한 GPUTesla T4를 탑재한 EC2 인스턴스입니다. 2019년 3월에 개최된 GTC 20191에서 AWS에서 인스턴스 제공을 발표하여 2019년 9월에 사용할 수 있게 되었습니다.
사양 및 각 인스턴스에 대한 주문형 요금은 아래 표와 같습니다. 최신 아키텍처에도 불구하고 G4 인스턴스 비용이 저렴합니다.
아키텍처
CUDA 코어 수
장치 메모리
온디맨드 요금
p2.xlarge
Kepler
2496
12GB
1.542 $/hr
p3.2xlarge
Volta
5120
16GB
4.194 $/hr
g4dn.xlarge
Turing
2560
16GB
0.71 $/hr
벤치마크
측정 조건
GPU를 이용한 자전거 네트워크 탐색 엔진으로 탐색 거리마다(6~1400km)에 아키텍처 비교를 실시했습니다.
비교한 것은 위에서 설명한 각 아키텍처의 인스턴스입니다.
측정 결과
여기가 절대치로의 비교입니다.
여기가 P2의 탐색 시간을 100으로 했을 때의 각 아키텍처의 처리 시간의 비율입니다.
P3의 퍼포먼스는 엄청나고, P2에 비해 평균 3.17배의 고속화가 되었습니다. 그러나 비용이 P2와 비교하면 2.71배로 상응하는 비용이 든다.
G4도 P2와 CUDA 코어 자체의 수는 거의 변하지 않았음에도 불구하고 P2에 비해 평균 1.81배의 고속화가 가능하다. 게다가 비용이 0.46배가 됩니다.
즉, P3는 비용을 들여 빨리 하고 있는 것과 같지만, G4는 비용이 저렴해지기 위해 빨라졌습니다.
아키텍처
P2와의 속도차
P2와의 비용차
P2와의 비용 성능
p3.2xlarge
Volta
3.17
2.71
1.17
g4dn.xlarge
Turing
1.81
0.46
3.93
요약
P2 인스턴스를 사용하는 분은 G4 인스턴스의 이용을 적극적으로 검토합시다.
이번 비교는 GPGPU에서의 성능 비교였지만, G4 인스턴스에서는 앞에서 설명한 대로 Turing 아키텍처인 Tesla T4를 이용하고 있으며, 이 GPU에는 기계 학습 계산에 특화된 프로세서인 Tensor Core도 탑재되어 따라서 P2 인스턴스와 비교하면 기계 학습에서의 성능도 확실히 올라가고 있다고 생각하므로 이용을 검토할 가치가 있다고 생각합니다.
새너제이에서 매년 개최되는 NVIDIA 기술 컨퍼런스 ↩
Reference
이 문제에 관하여(새로 출시된 AWS GPU 기반 EC2 인스턴스 G4의 성능 비교), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/navitime_tech/items/9b01bb67225bf64907f4
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
P2 인스턴스를 사용하는 분은 G4 인스턴스의 이용을 적극적으로 검토합시다.
이번 비교는 GPGPU에서의 성능 비교였지만, G4 인스턴스에서는 앞에서 설명한 대로 Turing 아키텍처인 Tesla T4를 이용하고 있으며, 이 GPU에는 기계 학습 계산에 특화된 프로세서인 Tensor Core도 탑재되어 따라서 P2 인스턴스와 비교하면 기계 학습에서의 성능도 확실히 올라가고 있다고 생각하므로 이용을 검토할 가치가 있다고 생각합니다.
새너제이에서 매년 개최되는 NVIDIA 기술 컨퍼런스 ↩
Reference
이 문제에 관하여(새로 출시된 AWS GPU 기반 EC2 인스턴스 G4의 성능 비교), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/navitime_tech/items/9b01bb67225bf64907f4텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)