BOW - 훌륭한 개발자 블로그

[Aiffel] 아이펠 51일차 개념 정리 및 회고

2. 단어를 무작위로 섞어 순서를 무시하지만 단어의 등장 빈도수를 저장 Bag of Words를 하나의 행렬로 구현한 것 = 여러 문서를 이용하며, 각 문서에 등장한 단어의 빈도수를 하나의 행렬로 통합함. 행 = 문서 / 열 = 단어 (반대의 경우는 TDM이라고 칭함.) 저장 공간 낭비(+차원의 저주): 이용하는 문서, 단어의 수가 늘어날 수록 행, 열의 대부분 값이 0을 가지게 됨. 단어 ...

국비교육LSA형태소 분석기파이썬BOWDTMBOW

텍스트 벡터화

(5) TF-IDF (6) TF-IDF 구현하기 DTM의 문서 수와 단어 수가 늘어날 수록 벡터가 쓸데없이 커진다. TF-IDF(Term Frequency-Inverse Document Frequency)는 모든 문서에서 자주 등장하는 단어는 중요도를 낮게 보고, 특정 문서에서만 자주 등장하는 단어는 중요도를 높게 본다. DTM을 만든 뒤 TF-IDF 가중치를 DTM에 적용 tf 뒤에 곱해지...

LSANLPBOWLDAidfBOW