(5) PyTorch 학습노트--단어주머니 모형

4940 단어 NLP

가설 자료 라이브러리

data = [("me gusta comer en la cafeteria".split(), "SPANISH"),
        ("Give it to me".split(), "ENGLISH"),
        ("No creo que sea una buena idea".split(), "SPANISH"),
        ("No it is not a good idea to get lost at sea".split(), "ENGLISH")]

test_data = [("Yo creo que si".split(), "SPANISH"),
             ("it is lost on me".split(), "ENGLISH")]

1. 자료 라이브러리의 테스트 집합과 훈련 집합을 통합한다. 2. 통합된 자료 라이브러리에 중복되지 않는 모든 단어를 찾아내고 word_to_ix(단어 단어 index)로 표시한다. (여기에 모두 26개의 단어가 있는데 최종 표시의 벡터 길이는 26이다)

{'me': 0, 'gusta': 1, 'comer': 2, 'en': 3, 'la': 4, 'cafeteria': 5, 'Give': 6, 'it': 7, 'to': 8, 'No': 9, 'creo': 10, 'que': 11, 'sea': 12, 'una': 13, 'buena': 14, 'idea': 15, 'is': 16, 'not': 17, 'a': 18, 'good': 19, 'get': 20, 'lost': 21, 'at': 22, 'Yo': 23, 'si': 24, 'on': 25}

3. 표현(문장은 벡터를 나타내고 문장의 단어는 사전에서 몇 번 나타나면 해당 위치에 기입하고 없으면 0)을 말한다. 예를 들어 다음과 같다.

['me', 'gusta', 'comer', 'en', 'la', 'cafeteria'] 
  [ 1     1     1     1     1     1     0     0     0     0     0     0     0
   0     0     0     0     0     0     0     0     0     0     0     0     0]（ 26）

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

记录一个失败的GAN 实验以及后续计划

我的想法是:让generator能够根据label来生成对应的图片、比如label为1、生成1的图片、而不是随机作成. 为了实现这个目标、我给discriminator的输入做了些手脚. vanilla 모형리, D적输入是单纯的图片向量,...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다