GCP AutoML Natural Language 벤치마크

GCP AutoML Natural Language 벤치마크



TL;DR



데모 데이터를 이용하여 AutoML Natural Language 와 자작 모델의 성능을 비교해 보았습니다.
이제 전부AutoML Natural Language로 좋지 않을까・・・.

배경



GCPUB 이벤트에 참가한 결과 AutoML의 β공개가 시작되었음을 알았으므로 자연어 처리용인 AutoML Natural Language의 성능을 확인해 보려고 했습니다.
AutoML Vision님은 Shuhei Fujiwara님의 이 기사을 방문해 주세요.

대상 데이터


AutoML Natural Language공식 문서에 게시 된 데모 데이터을 사용했습니다.

자작 모델



특징량이 되는 입력문을 Word2Vec를 이용해 Token Embedding으로서 입력, GRU로 학습한다고 하는 내용이 되고 있습니다.
형태소 해석하지 않고, keras의 text_to_word_sequence를 이용하고 있으므로, 입력에 적합하지 않은 품사도 그대로입니다.
또, 프레임워크로서 keras를 이용하고 있습니다.

자세한 내용은 Jupyter Notebook을 참조하십시오.

성능 비교



AutoML Natural Language







자작 모델


                  precision    recall  f1-score   support

         bonding       0.72      0.91      0.80       506
         leisure       0.74      0.56      0.64       298
       affection       0.92      0.90      0.91      1277
enjoy_the_moment       0.57      0.55      0.56       408
     achievement       0.84      0.85      0.85      1187
          nature       0.91      0.53      0.67        73
        exercise       0.73      0.84      0.78        61

     avg / total       0.82      0.81      0.81      3810

처리 시간



AutoML Natural Language



약 4시간.

자작 모델



약 30분.
후술하는 Jupyter Notebook의 아웃풋으로는 15분이 되고 있습니다만, 한 번 도중부터 학습을 재개하고 있기 때문에, 합계로 30분 정도가 되고 있습니다.

비용



AutoML Natural Language


219.05 Minute   ¥1,215.51

단가는 공식 문서을 참조하십시오.

자작 모델



GPU로서 GTX 1060(6GB)을 탑재한 데스크탑 PC로 실행했습니다.
이 때문에 전기 요금뿐입니다.

기타



매우 굉장한 AutoML Natural Language 하지만 일본어는 지원되지 않는다고 합니다.
실제로 라벨에 일본어를 사용하면 올바르게 해석되지 않습니다.
다만, 특징량으로서는 일본어도 입력을 할 수 있었으므로, 라벨을 코드화하는 등으로 일본어를 사용해 볼 수 있다고 생각됩니다.

그 경우의 성능은 확인하지 않았기 때문에 다른 사람의 검증을 기대합니다.

관련 정보


  • Google Cloud AutoML Natural Language
  • 라면 니로와 브랜드 제품으로 AutoML Vision의 인식 성능을 시험해보십시오
  • 좋은 웹페이지 즐겨찾기