[Pytorch]docker 공유 메모리 문제

1316 단어 errorbugpytorch

ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient shared memory (shm)


문제

ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient shared memory (shm)

이 오류가 발생한 경우 서버에 있는docker에서 트레이닝 코드를 실행할 때batchsize가 너무 커서sharedmemory가 부족합니다. (docker가shm를 제한했기 때문입니다.)
PyTorch README 기준:
Please note that PyTorch uses shared memory to share data between processes, so if torch multiprocessing is used (e.g. for multithreaded data loaders) the default shared memory segment size that container runs with is not enough, and you should increase shared memory size either with --ipc=host or --shm-size command line options to nvidia-docker run.

솔루션


1. 여기서 PyTorch의 IPC는 공유 메모리를 이용하기 때문에 공유 메모리는 충분히 커야 통과할 수 있다docker run --shm-size 수정 2.설정을 통해--ipc=host 3.Dataloader의num_workers를 0으로 설정합니다.근데 훈련이 느려져요.
yolov3 issue#283
PyTorch On K8S 공유 메모리 문제 포지셔닝
Pytorch의 12개의 구덩이

좋은 웹페이지 즐겨찾기