Word embedding 실전 프로젝트에 NLP 단어 포함

923 단어 tensorflow
1. 텍스트를 숫자로 표시
머신러닝 모델은 벡터(디지털 배열)를 입력으로 하는데, 텍스트를 처리할 때 문자열을 숫자로 변환하거나 텍스트를 "벡터화"한 다음 모델에 제공하는 전략을 먼저 생각해야 합니다.이 절에서 우리는 세 가지 전략을 연구할 것이다.
1.1. 단일 핫 코딩(One-hot encodings)
우선, 우리는'one-hot'으로 어휘의 단어 하나하나를 인코딩할 수 있다.'the cat sat on the mat'라는 말을 생각해 보자. 이 문장의 어휘(또는 독특한 단어)는 (cat, mat, on, The)이다. 단어마다 어휘표와 같은 길이의 영방향량을 표시하기 위해 단어의 인덱스에 1을 놓을 것이다.이 방법은 다음 그림과 같습니다.
2. Embedding 레이어 학습어로 삽입
from __future__ import absolute_import, division, print_function, unicode_literals

# !pip install tf-nightly-2.0-preview
import tensorflow as tf

from tensorflow import keras
from tensorflow.keras import layers

# Embedding         : 
#            ,   1000(1+      ); 
# embeddings   ,   32.。
embedding_layer = layers.Embedding(1000, 32)

입력: (samples, sequence length)(batch, 시퀀스 길이)
출력: (samples, sequence length, embedding dimensionality)(batch, 시퀀스 길이, 비트)

좋은 웹페이지 즐겨찾기