LSA - 훌륭한 개발자 블로그

Julia에서 LSA 구현

LSA 설명 LSA의 설명이라고 해도 코드를 보면 한발입니다만, 설명하면 주어진 X라는 행렬이 있습니다. 이것은 각 요소의 문장 i (i = 4)에서 단어의 빈도를 포함하는 행렬입니다. 이것을 특이 값 분해합니다. 특이값 분해의 설명은 구구해 주세요. 그리고 그림과 같이 근사 행렬을 구합니다만, 특이값 분해된 U, S, V 중 S 행렬이 대각선에 특이값이 늘어서 있습니다. 이번에는 k = 2...

JuliaLSA

[Aiffel] 아이펠 51일차 개념 정리 및 회고

2. 단어를 무작위로 섞어 순서를 무시하지만 단어의 등장 빈도수를 저장 Bag of Words를 하나의 행렬로 구현한 것 = 여러 문서를 이용하며, 각 문서에 등장한 단어의 빈도수를 하나의 행렬로 통합함. 행 = 문서 / 열 = 단어 (반대의 경우는 TDM이라고 칭함.) 저장 공간 낭비(+차원의 저주): 이용하는 문서, 단어의 수가 늘어날 수록 행, 열의 대부분 값이 0을 가지게 됨. 단어 ...

국비교육LSA형태소 분석기파이썬BOWDTMBOW

텍스트 벡터화

(5) TF-IDF (6) TF-IDF 구현하기 DTM의 문서 수와 단어 수가 늘어날 수록 벡터가 쓸데없이 커진다. TF-IDF(Term Frequency-Inverse Document Frequency)는 모든 문서에서 자주 등장하는 단어는 중요도를 낮게 보고, 특정 문서에서만 자주 등장하는 단어는 중요도를 높게 본다. DTM을 만든 뒤 TF-IDF 가중치를 DTM에 적용 tf 뒤에 곱해지...

LSANLPBOWLDAidfBOW