(5) PyTorch 학습노트--단어주머니 모형

4940 단어 NLP
가설 자료 라이브러리
data = [("me gusta comer en la cafeteria".split(), "SPANISH"),
        ("Give it to me".split(), "ENGLISH"),
        ("No creo que sea una buena idea".split(), "SPANISH"),
        ("No it is not a good idea to get lost at sea".split(), "ENGLISH")]

test_data = [("Yo creo que si".split(), "SPANISH"),
             ("it is lost on me".split(), "ENGLISH")]

1. 자료 라이브러리의 테스트 집합과 훈련 집합을 통합한다. 2. 통합된 자료 라이브러리에 중복되지 않는 모든 단어를 찾아내고 word_to_ix(단어 단어 index)로 표시한다. (여기에 모두 26개의 단어가 있는데 최종 표시의 벡터 길이는 26이다)
{'me': 0, 'gusta': 1, 'comer': 2, 'en': 3, 'la': 4, 'cafeteria': 5, 'Give': 6, 'it': 7, 'to': 8, 'No': 9, 'creo': 10, 'que': 11, 'sea': 12, 'una': 13, 'buena': 14, 'idea': 15, 'is': 16, 'not': 17, 'a': 18, 'good': 19, 'get': 20, 'lost': 21, 'at': 22, 'Yo': 23, 'si': 24, 'on': 25}

3. 표현(문장은 벡터를 나타내고 문장의 단어는 사전에서 몇 번 나타나면 해당 위치에 기입하고 없으면 0)을 말한다. 예를 들어 다음과 같다.
['me', 'gusta', 'comer', 'en', 'la', 'cafeteria'] 
  [ 1     1     1     1     1     1     0     0     0     0     0     0     0
   0     0     0     0     0     0     0     0     0     0     0     0     0]( 26

좋은 웹페이지 즐겨찾기