(5) PyTorch 학습노트--단어주머니 모형
4940 단어 NLP
data = [("me gusta comer en la cafeteria".split(), "SPANISH"),
("Give it to me".split(), "ENGLISH"),
("No creo que sea una buena idea".split(), "SPANISH"),
("No it is not a good idea to get lost at sea".split(), "ENGLISH")]
test_data = [("Yo creo que si".split(), "SPANISH"),
("it is lost on me".split(), "ENGLISH")]
1. 자료 라이브러리의 테스트 집합과 훈련 집합을 통합한다. 2. 통합된 자료 라이브러리에 중복되지 않는 모든 단어를 찾아내고
word_to_ix
(단어 단어 index)로 표시한다. (여기에 모두 26개의 단어가 있는데 최종 표시의 벡터 길이는 26이다){'me': 0, 'gusta': 1, 'comer': 2, 'en': 3, 'la': 4, 'cafeteria': 5, 'Give': 6, 'it': 7, 'to': 8, 'No': 9, 'creo': 10, 'que': 11, 'sea': 12, 'una': 13, 'buena': 14, 'idea': 15, 'is': 16, 'not': 17, 'a': 18, 'good': 19, 'get': 20, 'lost': 21, 'at': 22, 'Yo': 23, 'si': 24, 'on': 25}
3. 표현(문장은 벡터를 나타내고 문장의 단어는 사전에서 몇 번 나타나면 해당 위치에 기입하고 없으면 0)을 말한다. 예를 들어 다음과 같다.
['me', 'gusta', 'comer', 'en', 'la', 'cafeteria']
[ 1 1 1 1 1 1 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0]( 26)
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
记录一个失败的GAN 实验以及后续计划我的想法是:让generator能够根据label来生成对应的图片、比如label为1、生成1的图片、而不是随机作成. 为了实现这个目标、我给discriminator的输入做了些手脚. vanilla 모형리, D적输入是单纯的图片向量,...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.