해결 RuntimeError: cuda runtime error(59): device-side assert triggered
Traceback (most recent call last): File "train_pytorch1.py", line 217, in loss = F.cross_entropy(output, target) File "/usr/local/python3/lib/python3.5/site-packages/torch/nn/functional.py", line 1970, in cross_entropy return nll_loss(log_softmax(input, 1), target, weight, None, ignore_index, None, reduction) File "/usr/local/python3/lib/python3.5/site-packages/torch/nn/functional.py", line 1790, in nll_loss ret = torch._C._nn.nll_loss(input, target, weight, _Reduction.get_enum(reduction), ignore_index) RuntimeError: cuda runtime error (59) : device-side assert triggered at/pytorch/aten/src/THCUNN/generic/ClassNLLCriterion.cu:111
이 이상은 아마 계산 손실치와 관련이 있을 것이다
자료를 조회할 때 많은 친구들이 이런 cudaruntime error(59)를 만났는데 대부분이 색인 이상이다
이 게시물의 한 Pytorch Dev에 따르면 cuda의 비동기성 때문에 단언은 단언이 어디서 촉발되는지 가리키는 완전한 정확한 창고 추적을 가리키지 않을 수 있습니다.
프로그램이 모듈을 가져오기 전에 다음 문장을 추가하면 더 많은 세부 사항을 출력할 수 있습니다
-
import os
-
os.environ[
'CUDA_LAUNCH_BLOCKING'] =
"1"
:
/pytorch/aten/src/THCUNN/ClassNLLCriterion.cu:105: void cunn_ClassNLLCriterion_updateOutput_kernel(Dtype *, Dtype *, Dtype *, long *, Dtype *, int, int, int, int, long) [with Dtype = float, Acctype = float]: block: [0,0,0], thread: [6,0,0] Assertion `t >= 0 && t < n_classes` failed.
THCudaCheck FAIL file=/pytorch/aten/src/THCUNN/generic/ClassNLLCriterion.cu line=111 error=59 : device-side assert triggered
Traceback (most recent call last):
File "train_pytorch1.py", line 217, in
loss = F.cross_entropy(output, target)
File "/usr/local/python3/lib/python3.5/site-packages/torch/nn/functional.py", line 1970, in cross_entropy
return nll_loss(log_softmax(input, 1), target, weight, None, ignore_index, None, reduction)
File "/usr/local/python3/lib/python3.5/site-packages/torch/nn/functional.py", line 1790, in nll_loss
ret = torch._C._nn.nll_loss(input, target, weight, _Reduction.get_enum(reduction), ignore_index)
RuntimeError: cuda runtime error (59) : device-side assert triggered at /pytorch/aten/src/THCUNN/generic/ClassNLLCriterion.cu:111
, label 。
label,
0~44, 1~45。 label , 。
CUDA , , 。Debugging CUDA device-side assert in PyTorch
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
keras 기반 EfficientNet 재현[2 트레이닝 모듈]B3는 일반적인 서버가 달리기에 적합할 것 같아요.batchsize는 너무 크게 설정하지 마세요. 메모리를 초과하기 쉬워요.이것은 앞의 AlexNet 데이터 집합을 사용하고 다음에 데이터 집합 주소를 넣으세요. 트림...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.