GCP AutoML Natural Language 벤치마크
GCP AutoML Natural Language 벤치마크
TL;DR
데모 데이터를 이용하여 AutoML Natural Language
와 자작 모델의 성능을 비교해 보았습니다.
이제 전부AutoML Natural Language
로 좋지 않을까・・・.
배경
GCPUB 이벤트에 참가한 결과 AutoML의 β공개가 시작되었음을 알았으므로 자연어 처리용인 AutoML Natural Language
의 성능을 확인해 보려고 했습니다.
AutoML Vision
님은 Shuhei Fujiwara님의 이 기사을 방문해 주세요.
대상 데이터
AutoML Natural Language
의 공식 문서에 게시 된 데모 데이터을 사용했습니다.
자작 모델
특징량이 되는 입력문을 Word2Vec를 이용해 Token Embedding으로서 입력, GRU로 학습한다고 하는 내용이 되고 있습니다.
형태소 해석하지 않고, keras의 text_to_word_sequence
를 이용하고 있으므로, 입력에 적합하지 않은 품사도 그대로입니다.
또, 프레임워크로서 keras를 이용하고 있습니다.
자세한 내용은 Jupyter Notebook을 참조하십시오.
성능 비교
AutoML Natural Language
자작 모델
precision recall f1-score support
bonding 0.72 0.91 0.80 506
leisure 0.74 0.56 0.64 298
affection 0.92 0.90 0.91 1277
enjoy_the_moment 0.57 0.55 0.56 408
achievement 0.84 0.85 0.85 1187
nature 0.91 0.53 0.67 73
exercise 0.73 0.84 0.78 61
avg / total 0.82 0.81 0.81 3810
처리 시간
AutoML Natural Language
약 4시간.
자작 모델
약 30분.
후술하는 Jupyter Notebook의 아웃풋으로는 15분이 되고 있습니다만, 한 번 도중부터 학습을 재개하고 있기 때문에, 합계로 30분 정도가 되고 있습니다.
비용
AutoML Natural Language
219.05 Minute ¥1,215.51
단가는 공식 문서을 참조하십시오.
자작 모델
GPU로서 GTX 1060(6GB)을 탑재한 데스크탑 PC로 실행했습니다.
이 때문에 전기 요금뿐입니다.
기타
매우 굉장한 AutoML Natural Language
하지만 일본어는 지원되지 않는다고 합니다.
실제로 라벨에 일본어를 사용하면 올바르게 해석되지 않습니다.
다만, 특징량으로서는 일본어도 입력을 할 수 있었으므로, 라벨을 코드화하는 등으로 일본어를 사용해 볼 수 있다고 생각됩니다.
그 경우의 성능은 확인하지 않았기 때문에 다른 사람의 검증을 기대합니다.
관련 정보
precision recall f1-score support
bonding 0.72 0.91 0.80 506
leisure 0.74 0.56 0.64 298
affection 0.92 0.90 0.91 1277
enjoy_the_moment 0.57 0.55 0.56 408
achievement 0.84 0.85 0.85 1187
nature 0.91 0.53 0.67 73
exercise 0.73 0.84 0.78 61
avg / total 0.82 0.81 0.81 3810
219.05 Minute ¥1,215.51
Reference
이 문제에 관하여(GCP AutoML Natural Language 벤치마크), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/hideki/items/0c5924ec3b4abf7a33e8텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)