AWS SageMaker Ground Truth에 텍스트 레이블 지정하기

5848 단어 AWS

AWS SageMaker Ground Truth에 텍스트 레이블 지정하기


TL;DR


AWS SageMaker Ground Truth는 머신러닝용 라벨 데이터 제작을 위한 플랫폼이다.
SageMaker Ground Truth에서는 다음과 같은 종류의 레이블 데이터를 만들 수 있습니다.
  • Image Classification
  • Bounding Box
  • Text Classification
  • Semantic (Image) Segmentation
  • Custom
  • 라벨 데이터를 만드는 데 시간이 오래 걸리기 때문에 외부 협동 기능도 내장돼 있다.
    자체 제작 외에도 아마존 메카닉 터키를 활용하거나 다른 지정 공급업체에 의뢰할 수 있다.
    이번에 교재를 붙여 보았다.
    작업의 제작부터 라벨까지 대략적인 절차를 소개한다.
    또한, 2018/11/29에 방금 발표된 서비스이기 때문에 내용이 바로 변경될 수 있으니 주의하시기 바랍니다.

    이용 방법


    조작 절차

  • 라벨 대상 데이터 업로드
  • 라벨 제작 작업
  • Worker로 로그인
  • 마크업
  • 치수 결과 확인
  • 태그 객체 데이터 업로드


    치수 객체의 데이터를 AWS3에 업로드해야 합니다.
    이번에는 텍스트 분류이기 때문에 텍스트 데이터를 업로드해야 하지만 확장자는 다음과 같은 내용이 필요합니다.
  • *.txt
  • *.csv
  • 다른 것도 괜찮아요. *.tsv에서 후술한 표기 작업의 제작에 문제가 발생할 수 있으니 주의하세요.
    이 밖에 파일이 여러 개라도 문제가 없지만 여러 디렉터리에 걸쳐 있어도 문제가 없다.

    레이블 작업 작성


    AWS 콘솔에서 AWS SageMaker의 콘솔을 표시합니다.
    화면 왼쪽Ground Truth -> ラベリングジョブ을 선택하면 라벨 작업의 제작 화면이 표시됩니다.
    Input dataset location에서 지정Manifestファイル했지만 처음에는 미제작이어야 하기 때문에 설명문Create manifest fileリンク을 눌렀다.
    다음 화면이 표시됩니다.
    Input dataset location에 데이터를 업로드하는 S3의 세그먼트(+ 디렉토리)를 지정합니다.
    텍스트 분류이기 때문에 ラベリング対象データのアップロード 지정Data Type, 누르면 Text 생성Createボタン됩니다.
    이때 업로드된 파일의 확장자가 Manifestファイル 또는 *.txt*.csv가 아니면 Manifestファイル를 만들 수 없습니다.
    제작이 완료되면 Use this manifestボタン를 누르면 라벨 작업 제작 화면의Input dataset location를 입력한다.
    Task type 선택Text Classification.
    Custom에는 자신이 만든 HTML을 업로드하고 독자적인 라벨 데이터 제작 화면을 지정할 수 있다.

    다음은 탭 데이터의 작성자를 선택하십시오.
    이번에는 라벨 데이터를 직접 만들기 위해 선택했다Private.Public 또는 Vendor managed를 선택하면 라벨 데이터를 협동하여 만들 수 있습니다.
    부주의로 선택하면 외협이 생길 수 있으니 주의하세요.

    디자인 라벨 데이터 작성자가 보는 화면입니다.
    작업자에 대해 어떤 기준으로 표시하는지 명확하게 설명하기 위해서다.Select an option에 분류 객체에 대한 옵션이 지정되어 있지만 일본어를 사용할 수 없습니다.
    원래 Mechanical Turk에 일본인이 있었나요? 별 어려움이 없을 것 같은데, 그래도 주의해야겠어요.
    탭 작업을 만들 수 있습니다.
    작업 목록이 작성되면 다음과 같이 표시됩니다.

    Private 태그 그룹 만들기


    표기 작업 중 Private을 선택할 때 처음 제작할 때 제작Privateラベリングチーム이 필요하다.
    입력한 것은 팀명과 스태프의 메일 주소입니다.
    팀 구성원의 관리는 Amazon Cognito에서 진행된다.Cognito 설치 등은 모두 SageMaker Ground Truth에서 수행합니다.

    Worker로 로그인


    화면 왼쪽Ground Truth -> ラベリング労働力에서 태그 팀의 화면을 표시하면 다음과 같은 내용이 표시됩니다.

    위의 Labeling portal sign-in URLリンク를 누르면 라벨용 문호를 표시할 수 있습니다.
    이 때 Privateラベリングチーム 에서 지정한 작업자로 로그인합니다.
    세션 문제에서 AWS 콘솔을 여는 t가 같은 브라우저일 경우 작업에 문제가 있을 수 있으므로 다른 브라우저나 비밀 창을 사용하여 링크를 엽니다.
    포털사이트 로그인 화면에는 스태프의 이메일 주소와 비밀번호가 입력돼 있다.
    초기 암호는 Cognito에서 작업자에게 보내는 메시지입니다.

    라벨


    작업자가 사용하는 포털 사이트에 접속하면 작업을 할 수 있는 일람표가 나와 있다.
    작업을 선택하면 태그를 지정할 수 있는 다음 화면이 표시됩니다.

    태그 결과 확인


    일부 또는 전체 데이터에 표시되어 있으면, SageMaker의 컨트롤러에서 모든 탭 작업의 상황을 확인할 수 있습니다.
    또한, 차트에 나오기 전에 약간(30분 정도)시간이 걸리니까 주의하세요.

    태그 작업을 선택하면 태그의 데이터 목록을 확인할 수 있습니다.

    각 데이터의 상세한 화면은 다음과 같다.
    여러 사람이 함께 일하면 탭의 목록이 표시됩니다.

    사용한 소감.


    이번 시도처럼 텍스트 분류용 라벨 데이터만 만들면 Provate팀에서 사용하면 일반적으로 SageMaker Ground Truth를 이용하는 것은 가치가 크지 않다고 생각하지만 이미지학과는 환경 통일의 번거로움을 줄이기 위해 편리할 수 있다.
    다만, Public/Vendor에서 라벨 데이터를 만드는 것이 원래의 가치라고 생각합니다.
    또한 현재 버전에서는 태그 작업 후 태그 작업자가 보는 화면에 대한 설명을 변경할 수 없습니다.한 번의 승부이기 때문에 설명문은 신중하게 검토할 필요가 있다.

    참고 문헌

  • Amazon SageMaker Ground Truth - 정밀한 데이터 세트를 구축하여 낙찰 비용을 최대 70% 절감
  • Amazon SageMaker Ground Truth
  • 좋은 웹페이지 즐겨찾기