adam optimizer와 더 많이...

묘사

여보세요,
이 PR에는 다음이 포함됩니다.
vanilla sgd 대신 -adam optimizer (optim 패키지를 통해 최대 다른 최적화기를 사용할 수 있음)
- 저장하는 동안 저장하기 전에 CPU로 전환하여 GPULES가 없는 시스템에 모델을 로드할 수 있도록 합니다.(로드도 처리했기 때문에 디스크에서 CUDA/CL 버전을 로드할 수 있습니다)
- LSTM 대신 FastLSTM
- 계단식 자르기
- 볼륨 및 마스크에서 가변 시퀀스 길이에 대한 손실 계산 고려-> 올바른 당혹 계산.
- 디스크에 저장하기 전에 카드를 씻는 예시 (나는 모든 역원마다 카드를 씻는 것을 연구하고 있다)
다음에 저는 LSTM뿐만 아니라 더 좋은 데이터 집합 클래스, 다중 모델 및 seqLSTM 테스트를 연구할 것입니다.
진

토론 #1

잘했어!금방 해볼게요.
당신은 대화를 통해 그것을 테스트했습니까?그것은 결과를 개선하거나 낮추었습니까?

토론 #2

지금까지 내가 테스트한 어떤 모델에서도 나는 자술한 파일에서 결과를 얻을 수 없었다.(512개의 스텔스 유닛)
그러나 아담이 있는 버전은 SGD 버전보다 수렴이 빠른 것 같아서, 우리는 현재 플러그인 방식으로 어떠한 최적화기를 사용할 수 있다.
대화로 말하자면, 나는 매우 비슷한 결과를 얻었다.빌어먹을!나는 그것을 주말에 운행하게 했지만, 너의 최신 변화를 끌어당기는 것을 잊었다.
좋은 소식은 그것이 더 빨리 운행되는 것 같다는 것이다.1h30m w/토론 #셋.내 기계에서는 이전보다 15분이 적다.
나는 결과가 나오면 업데이트할 것이다.--dataset 50000 --hiddenSize 1000 50년 후에 몇 가지 결과를 얻었다. w/:

토론 #4

  Errors: min= 0.12092084043205
          max= 12.942585066745
       median= 1.2809126438544
         mean= 1.3072453725232
          std= 0.34914281377921
          ppl= 3.6959786325385

th> say "Hi"
>> Alone tonight?
                                                                      [0.2976s]
th> say "What is your name?"
>> Victor frankenstein, sir.
                                                                      [0.2085s]
th> say "How old are you?"
>> Twenty six years.
                                                                      [0.1879s]
th> say "What color is the sky?"
>> It's a problem.
                                                                      [0.2599s]
th> say "Are you human?"
>> I'm fine.
                                                                      [0.1666s]
th> say "Are you a machine?"
>> I've had worse.
                                                                      [0.2127s]
th> say "Where are you from?"
>> Helsinki,, which is the capital of finland.
                                                                      [0.3404s]
th> say "How are you doing?"
>> Very well...
                                                                      [0.1381s]
th> say "Do you like to cook?"
>> Sure.
                                                                      [0.0989s]
th> say "What is the purpose of life?"
>> It's a game.
                                                                      [0.2717s]
th> say "What is the purpose of living?"
>> Nothing not.
                                                                      [0.1161s]
th> say "Hello"
>> You ready?
                                                                      [0.1244s]
th> say "Hello?"
>> Hello, is this elaine?
                                                                      [0.2425s]
th> say "No"
>> You were screaming you weren't nick!
                                                                      [0.3195s]
th> say "No"
>> You were screaming you weren't nick!
                                                                      [0.3653s]
th> say "I'm not Nick"
>> And don't blame me...
                                                                      [0.2993s]
th> say "I won't"
>> He's not quite...
                                                                      [0.2065s]
th> say "what?"
>> I'm trying to stop the
                                                                      [0.2919s]
th> say "the what?"
>> The little brenner girl.

훈련이 나의 더 많은 기억을 차지했기 때문에 나는 어쩔 수 없이 50k에서 30k로 내려갔다.나는 이것이 위의 몇몇 답안의 질에 영향을 미쳤다고 생각한다. (예를 들어 하늘은 무슨 색입니까?)다른 답은 다 좋아요!
그러나 너무 많은 메모리를 사용하기 때문에 '저장하기 전에 CPU로 변환' 을 삭제해야 합니다.이것을 옵션으로 만들 수 있습니다. 합병하겠습니다.$ th train.lua --cuda --dataset 30000 --hiddenSize 1000 정확한 PPL 계산은 매우 중요합니다.)　감사합니다!

토론 #5

겸사겸사 한마디 하자면, 이것은 정말 내가 들은 가장 멋진 이름이다. 기계는 그가 작은 괴물이라고 주장한다:) 하하!

토론 #6

그런데 왠지 이 답안에 대한 기억이 없어요.
'생명의 목적이 뭐예요?'

It's a game.

'사는 목적이 뭐예요?'

Nothing not.

나는 그가 더욱 잘할 수 있기를 바란다...
토론 #7
이 변화들을main branch로 밀어주시겠어요?감사합니다!
토론 #8
@macournoyer 네, 이 버전에 문제가 있습니다. 매개 변수에 대한 인용을 보류했습니다.그것은 기억을 첫 번째 기원 이후로 증가시켰다.
얼마 전에 나는 나의 개발 지점에서 그것을 복구했다.
그것을 복구하고 싶습니까? 아니면 옵션을 추가하고 싶습니까?
진
토론 #9
@chenb67아!만약 당신이 해결 방안을 가지고 있다면, 이것은 옵션보다 훨씬 좋습니다.
토론 #10
(@chenb67의 뛰어난 업무에 다시 한 번 감사 드립니다.
토론 #11
멋진 프로젝트 감사합니다@메코노예
나의 개발 지점에는 더 많은 기능이 있다.당신은 모든 기능에 작은 PR이 있기를 원합니까, 아니면 상당히 큰 PR이 있기를 원합니까?
토론 #12
@chenb67 이런 대형 홍보는 저에게 문제가 없습니다.간단하게.

Reference

이 문제에 관하여(adam optimizer와 더 많이...), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://github.com/macournoyer/neuralconvo/issues/35

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

adam optimizer와 더 많이...

묘사

토론 #1

토론 #2

토론 #셋

토론 #4

토론 #5

토론 #6

토론 #7

토론 #8

토론 #9

토론 #10

토론 #11

토론 #12

Reference

좋은 웹페이지 즐겨찾기