S3에서 Neptune으로 대량 마운트

Neptune에 Vertex(정점), Edge(변) 데이터를 넣는 수단 중 하나로 S3을 통해 대량으로 불러오는 방법이 있다.
공식 문서에서 보듯이 csv 설정 IAM 준비는 기본적으로 완료되었습니다.

IAM 준비


관리 콘솔에서 클러스터 액션에서 IAM 역할 관리를 선택하면 다음과 같은 화면이 나타납니다.

여기서 IAM 역할이 설정된 링크를 클릭하면 됩니다.반응에 시간이 좀 걸린다.
설정 방법은 여기.와 같다.
  • AmazonS3 ReadOnlyAccess 사용
  • 편집 신뢰 관계
  • 두 가지만 진행하시면 됩니다.결국 이렇게 될 것 같아서요.



    데이터 준비


    참고여기..
    머리글로 아래 내용을 최대한 정의할 수 있다면 차이가 많지 않을 것이다.

    마침 제가 역 서비스를 제공하는 회사에서 일하고 있어서 역 데이터를 추출하여 CSV화를 시도했습니다.
    생성된 csv 파일을 S3에 배치합니다.

    대량 적재


    개인적 이유로 Private Subnet에 Neptune이 구성되어 있으므로 액세스가 허용된 EC2에서 대량 로드를 시작했다고 생각합니다.
    다음 두 가지를 잘 할 수 있다면 기본적으로 문제없다.
  • curl 명령 사용 가능
  • 안전 그룹이 적절하게 설정됨


  • EC2에서 다음 명령을 실행합니다.
    curl -X POST \
        -H 'Content-Type: application/json' \
        https://あなたのクラスターエンドポイント:8182/loader -d '
        {
          "source" : "s3://csvを配置したバケット/作成した.csv",
          "format" : "csv",
          "iamRoleArn" : "さっきつくったIAMロール",
          "region" : "ap-northeast-1",
          "failOnError" : "FALSE"
        }'
    
    그럼 다음 대답은 돌아오겠습니다.
    {
        "status" : "200 OK",
        "payload" : {
            "loadId" : "50b6ccc6-de0b-4830-ba15-*********"
        }
    }
    
    삽입, 업데이트가 성공했다는 것이 아니라 이런 반응을 받아들인 것 같다.
    또 삽입 후 바로 다른 것을 삽입하려면 오류가 되돌아온다.
    (기본적으로 미션 하나만 받나요?)

    로드와 CPU 사용률의 관계


    Neptune r4large 실례를 사용했기 때문에 적재 건수에 대해 얼마나 많은 CPU를 사용해야 하는지 검사해 보세요.
    결과는 다음과 같다.

    하지만 이를 시도하기 전에 20만개를 한꺼번에 싣으면 CPU가 100% 달라붙어 되돌아오지 않는 현상이 발생했다.(빈대야?)
    모범 사례에서 보듯이 업로드할 때 강한 실례로 확대하는 것이 좋다.

    좋은 웹페이지 즐겨찾기