자연어처리 - 훌륭한 개발자 블로그

TF-IDF 설명회

작성중인 게시물입니다. TF란? 문서 안에서 한 단어가 얼마나 중요한지를 수치적으로 나타낸 가중치이다. 자연어 처리에서 정보수집, 텍스트 마이닝 및 유저 모델링의 가중치 계산에 자주 사용된다. 유저가 "큰 사과"를 검색했다고하자. 가장 먼저 "큰"과 "사과"를 포함한 문서를 추려낸다. 그 뒤에 각 문서에서 "큰" "사과"가 몇번씩 등장하는지 빈도를 계산한다. 이 값이 TF이다. 이 때 문장의...

idftftfidf자연어처리idf

딥러닝 Bert 자연어 처리

Bert 언어모델 모델은 언어라는 현상을 모델링하고자 단어의 시퀀스에 화률을 할당하는것을 말한다. 언어모델은 통계를 이용한 방법(통계적 언어 모델 SLM)과 인공신경망 모델로 나뉜다. <통계적 모델> n-gram <인공신경망> DFN RNN NNLM...

BERT머신러닝자연어처리딥러닝pythonBERT

3. 자연어처리 (보충)

그리고 pad_sequence를 사용하는데, 이는 전체 훈련 데이터에서 각 샘플의 길이는 서로 다를 수 있기 때문이다. 이를 자연어 처리에서는 패딩(padding) 작업이라고 하는데, 보통 숫자 0을 넣어서 길이가 다른 샘플들의 길이를 맞춰준다. 케라스에서는 pad_sequence를 사용한다. 단어 임베딩 (Word Embedding) 단어 임베딩이란 텍스트 내의 단어들을 밀집 벡터(dens...

자연어처리입문입문