【AWS re:Invent 2018】Amazon Elastic Inference가 발표되었습니다

11월 28일 AWS re:Invent 2018의 Keynote에서 Amazon Elastic Inference 릴리스가 발표되었습니다. 본 기사에서는, Keynote와 세션 내용을 근거로 해설해 갑니다.

기계 학습의 추론 비용 문제



머신러닝에 있어서, 학습시와 추론시에서는 GPU 인스턴스 이용률은 마치 다릅니다. 특히 심층 학습 등의 대규모 모델은 학습 시에는 하이스펙한 GPU 인스턴스를 필요로 하지만, 한편 추론시에는 GPU는 그다지 필요하지 않고, 어느 쪽인가 하면 모델을 태울 수 있는 애플리케이션 전체의 성능을 중시하고 , CPU나 RAM 등의 리소스에 할당하는 것을 최우선으로 하는 것이 좋은 경우가 대부분입니다. 세션 중에도 GPU의 추론시 비용 문제와 관련하여 문제 제기되었습니다. AWS에 따르면 DeepLearning의 이용에 있어서 인스턴스 비용의 90%가 추론으로 나머지 10%가 학습에 달려 있는 것 같습니다.



Amazon Elastic Inference란 무엇입니까?



위와 같은 상황에서 AWS에서 새로운 서비스인 Amazon Elastic Inference가 출시되었습니다.
Elastic Inference는 EC2 인스턴스에 GPU 추론 가속을 연결하는 서비스로, 애플리케이션에 가장 적합한 CPU 인스턴스 유형을 선택하고 적절한 양의 GPU 가속을 연결하여 낭비되는 리소스 비용을 절감합니다. 합니다.


가속 크기의 종류



Elastic Inference에는 3개의 사이즈가 이용 가능하며, 1~32【TFLOPS】의 스루풋을 이용할 수 있는 것 같습니다. 이러한 가속은 EC2 또는 SageMaker 인스턴스에 연결할 수 있습니다.
・eia1.medium
・eia1.large
・eia1.xlarge


비용면



세션은 기존 방법과의 비용 비교 결과를 설명했습니다. 예를 들어, C5.large에 eia1.medium을 연결하면 전용 NVIDIA를 호스팅하는 p2.xlarge 인스턴스보다 약 1/4 비용이 듭니다. 너무 싸다. . .
물론 10% 정도 느려져 버립니다만, p2.xlarge의 가상 CPU수의 적음에 의한 어플리케이션의 영향과 코스트면을 생각하면, Elastic Inference는 꽤 강력한 GPU 어태치 서비스라고 할 수 있습니다.


지원 프레임워크



Elastic Inference는 현재 다음과 같은 기계 학습 프레임워크를 지원합니다. PyTorch 등의 다른 프레임워크에도 향후 대응 예정이라고 한다.
· TensorFlow
・MXNet
・ONNX(MXNet 경유)

EC2에 연결



가속기는 AWS PrivateLink 엔드포인트 서비스를 사용하여 네트워크를 통해 연결합니다.
자동 스케일링 인스턴스를 설정하려면 가속기 유형과 함께 인스턴스 설정에서 시작 템플릿을 지정합니다.


SageMaker와 결합



로컬 CPU 리소스와 가속기가 연결된 리소스 간에 계산을 분산할 수 있습니다.
이 기능은 SageMaker를 통해 S3의 DeepLearning AMI에서 사용할 수 있으므로 자체 컨테이너에 통합할 수 있습니다.


끝에



AI 붐 중, 비용면에 문제를 안고있는 분은 매우 많다고 생각합니다.
이번에 등장한 Elastic Inference의 추론 비용 최적화에 의해 향후의 어플리케이션 개발이 어떻게 변화해 나갈지 기대됩니다.

좋은 웹페이지 즐겨찾기