svm에서 tfidf와 word2vec을 비교해 본 조!

시작하기



마지막 기사의 연속입니다.
htps : // 코 m / 테리 / ms / bc4 04316 A 1b14 Ae 8365

마지막 개요 및 고찰



지난번에는 tfidf, svm을 이용하여 분류기를 만들었지만 학습 데이터에 있는 단어를 포함한 문장에 대해서는 기대대로 분류를 해 주었습니다. 그러나 학습 데이터에 없는 단어를 포함한 문장의 분류는 예상대로 분류하지 않았습니다.

이 사건에 대해 생각했지만 tfidf의 언어 모델은 분류기에 사용하는 학습 데이터와 동일한 데이터를 사용해야하므로 학습 데이터의 양이 적으면 벡터화에 영향을주는 단어가 적어집니다. 그렇다고 생각합니다. (결국, 데이터량은 중요하네요...)

tfidf와 word2vec을 비교하고 싶습니다.



지난번에는 tfidf를 사용했지만 이번에는 word2vec을 사용한 분류기를 만들고 결과를 비교하고 싶습니다.
word2vec은 tfidf와 달리 분류기의 학습 데이터와 동일한 데이터를 사용할 필요가 없기 때문에 사전에 대량의 데이터를 학습시킨 word2vec의 언어 모델을 사용하면 여러 단어에 대응시킬 수 있다고 생각합니다. 됩니다. (word2vec의 학습된 모델은, 인터넷상에 꽤 있습니다.공개해 주시고 있는 분들에게는 감사 밖에 없습니다...)

어렵게 쓰고 있습니다만, 정리하면. . .
word2vec를 사용하면 tfidf보다 범용적인 분류기를 할 수 있다고 생각합니다! ! !

비교 결과


  • tfidf의 결과
  • word2vec의 결과

  • 비교하면, 아래의 2문의 결과가 다릅니다.
    word2vec 쪽이 예상대로 분류되어 있습니다.
    word2vec는 대단히!

    마지막으로



    이번 비교에서 word2vec는 굉장하다고 다시 실감했습니다.
    단지 착각하고 싶지 않은 것은 tfidf보다 word2vec가 전반적으로 좋다는 것은 아닙니다.
    tfidf는 word2vec보다 메모리 양이 적고, 단어의 중요도라는 관점에서 벡터화가 가능합니다.
    각각의 장점이 있기 때문에, 무엇을 하고 싶은지, 어느 수법을 선정하는가가 중요하다고 생각합니다.

    저도 앞으로 점점 자연언어 처리의 지식을 익혀 가서
    「여기는, ○○인 수법을 사용하면 정밀도 오르겠어」라고 하는 것을 간단하게 말할 수 있는, 멋진 엔지니어가 되어 가고 싶네요~('◇')

    좋은 웹페이지 즐겨찾기