Word embedding 실전 프로젝트에 NLP 단어 포함

1. 텍스트를 숫자로 표시
머신러닝 모델은 벡터(디지털 배열)를 입력으로 하는데, 텍스트를 처리할 때 문자열을 숫자로 변환하거나 텍스트를 "벡터화"한 다음 모델에 제공하는 전략을 먼저 생각해야 합니다.이 절에서 우리는 세 가지 전략을 연구할 것이다.
1.1. 단일 핫 코딩(One-hot encodings)
우선, 우리는'one-hot'으로 어휘의 단어 하나하나를 인코딩할 수 있다.'the cat sat on the mat'라는 말을 생각해 보자. 이 문장의 어휘(또는 독특한 단어)는 (cat, mat, on, The)이다. 단어마다 어휘표와 같은 길이의 영방향량을 표시하기 위해 단어의 인덱스에 1을 놓을 것이다.이 방법은 다음 그림과 같습니다.
2. Embedding 레이어 학습어로 삽입

from __future__ import absolute_import, division, print_function, unicode_literals

# !pip install tf-nightly-2.0-preview
import tensorflow as tf

from tensorflow import keras
from tensorflow.keras import layers

# Embedding         ： 
#            ，   1000（1+      ）； 
# embeddings   ，   32.。
embedding_layer = layers.Embedding(1000, 32)

입력: (samples, sequence length)(batch, 시퀀스 길이)
출력: (samples, sequence length, embedding dimensionality)(batch, 시퀀스 길이, 비트)

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

GPU가 있는 M1 MacBook Air에 TensorFlow 설치(메탈)

이제 TensorFlow v2.5에서 Apple의 tensorflow-metal PluggableDevice를 활용하여 Metal을 사용하여 Mac GPU에서 직접 가속화된 교육을 받을 수 있습니다. 자세히 알아보기...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다