GCP AutoML Natural Language 벤치마크
GCP AutoML Natural Language 벤치마크
TL;DR
데모 데이터를 이용하여 AutoML Natural Language 와 자작 모델의 성능을 비교해 보았습니다.
이제 전부AutoML Natural Language로 좋지 않을까・・・.
배경
GCPUB 이벤트에 참가한 결과 AutoML의 β공개가 시작되었음을 알았으므로 자연어 처리용인 AutoML Natural Language의 성능을 확인해 보려고 했습니다.
AutoML Vision님은 Shuhei Fujiwara님의 이 기사을 방문해 주세요.
대상 데이터
AutoML Natural Language의 공식 문서에 게시 된 데모 데이터을 사용했습니다.
자작 모델
특징량이 되는 입력문을 Word2Vec를 이용해 Token Embedding으로서 입력, GRU로 학습한다고 하는 내용이 되고 있습니다.
형태소 해석하지 않고, keras의 text_to_word_sequence를 이용하고 있으므로, 입력에 적합하지 않은 품사도 그대로입니다.
또, 프레임워크로서 keras를 이용하고 있습니다.
자세한 내용은 Jupyter Notebook을 참조하십시오.
성능 비교
AutoML Natural Language


자작 모델
precision recall f1-score support
bonding 0.72 0.91 0.80 506
leisure 0.74 0.56 0.64 298
affection 0.92 0.90 0.91 1277
enjoy_the_moment 0.57 0.55 0.56 408
achievement 0.84 0.85 0.85 1187
nature 0.91 0.53 0.67 73
exercise 0.73 0.84 0.78 61
avg / total 0.82 0.81 0.81 3810
처리 시간
AutoML Natural Language
약 4시간.
자작 모델
약 30분.
후술하는 Jupyter Notebook의 아웃풋으로는 15분이 되고 있습니다만, 한 번 도중부터 학습을 재개하고 있기 때문에, 합계로 30분 정도가 되고 있습니다.
비용
AutoML Natural Language
219.05 Minute ¥1,215.51
단가는 공식 문서을 참조하십시오.
자작 모델
GPU로서 GTX 1060(6GB)을 탑재한 데스크탑 PC로 실행했습니다.
이 때문에 전기 요금뿐입니다.
기타
매우 굉장한 AutoML Natural Language 하지만 일본어는 지원되지 않는다고 합니다.
실제로 라벨에 일본어를 사용하면 올바르게 해석되지 않습니다.
다만, 특징량으로서는 일본어도 입력을 할 수 있었으므로, 라벨을 코드화하는 등으로 일본어를 사용해 볼 수 있다고 생각됩니다.
그 경우의 성능은 확인하지 않았기 때문에 다른 사람의 검증을 기대합니다.
관련 정보
precision recall f1-score support
bonding 0.72 0.91 0.80 506
leisure 0.74 0.56 0.64 298
affection 0.92 0.90 0.91 1277
enjoy_the_moment 0.57 0.55 0.56 408
achievement 0.84 0.85 0.85 1187
nature 0.91 0.53 0.67 73
exercise 0.73 0.84 0.78 61
avg / total 0.82 0.81 0.81 3810
219.05 Minute ¥1,215.51
Reference
이 문제에 관하여(GCP AutoML Natural Language 벤치마크), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/hideki/items/0c5924ec3b4abf7a33e8텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)