PBS 작업 제출 후 출력 오류 MPIAobrt

개인 블 로그 주소:http://blog.zhangchi.xyz교류 하 러 오신 것 을 환영 합 니 다.
구체 적 인 내용 의 캡 처 를 먼저 보다.
사실 MPI 출력Abort 메시지 의 일반적인 원인 은 네트워크 오류 로 인해 MPI 프로 세 스 가 비정상적 으로 종료 되 었 기 때 문 입 니 다. 즉, 일반적으로 Infiniband 네트워크 고장 으로 인 한 문제 입 니 다.
/ home / sce 디 렉 터 리 아래 PBS 스 크 립 트 가 있 습 니 다. 스 크 립 트 의 내용 은 다음 과 같 습 니 다.
#!/bin/bash
mpirun -np 16 /home/sce/software/dl_poly_4.05/execute/DLPOLY.Z

이 스 크 립 트 파일 은 매우 간단 해서 아무것도 지정 되 지 않 았 다.스 크 립 트 의 명령 을 클 러 스 터 의 한 노드 에 직접 출력 할 때 정상적으로 실행 할 수 있 습 니 다.
하지만 토 크 를 통 해 미 션 을 제출 합 니 다.
qsub job.sub

그리고 집행
qstat

작업 수행 상 태 를 살 펴 보 니 작업 이 곧 실행 상태 R 에서 상태 로 C 가 완 료 된 것 을 발견 했다.작업 의 출력 파일 과 오류 파일 을 봅 니 다.출력 파일 에 정보 가 없 는 것 을 발 견 했 습 니 다. 오류 파일 에 다음 과 같은 오류 가 발생 했 습 니 다.작업 스 크 립 트 에서 지정 한 CPU 핵 수 는 16 이기 때문에 16 개의 MPI 가 있 습 니 다.Abort 문제, np 매개 변수의 값 을 수정 하면 MPI애 버 트 의 수도 이에 따라 일치 했다.
처음에는 MPI 실행 환경 이나 Torque 실행 환경 이 설정 되 어 있 지 않 은 줄 알 았 습 니 다.이러한 환경의 배치 에 신경 을 쓰 고 여러 차례 환경 을 재 설치 해 왔 다.환경 설정 이 성공 한 후에 저 는 MPI Hello World 프로그램 과 PI 값 을 계산 하 는 프로그램 을 실 행 했 습 니 다. 이 두 프로그램 은 MPI 를 통 해 직접 실행 되 든 Torque 다 중 기 계 를 통 해 실행 되 든 모두 정상적으로 작 동 할 수 있 습 니 다. 비록 일부 오류 가 발생 했 지만 XRC, 즉 Infiniband 구동 버 전이 너무 오래된 문제 외 에 결 과 는 정확 합 니 다.
job. sub 의 mpirun 명령 을 수 동 으로 실행 하여 정상적으로 실행 할 수 있 기 때문에 작업 자체 에 문제 가 없다 고 생각 합 니 다. PBS 스케줄 링 시스템 의 문제 나 MPI 와 PBS 가 결합 하여 설정 한 부분 에 문제 가 있다 고 생각 합 니 다.
이렇게 계속 뒤척이다 가 Hello World 와 CPI 프로그램 을 실행 할 수 있다 는 것 을 알 게 되 었 을 때 은근히 jos. sub 에 문제 가 있 는 것 같 았 다.이후 qsub job. sub 를 통 해 여러 차례 작업 을 제출 했 는데 우연히 / home / sce 아래 에 OUTPUT 파일 이 있 는 것 을 발 견 했 습 니 다. 이 파일 의 수정 시간 과 작업 제출 시간 이 비슷 하고 이 파일 은 원래 없 던 것 이 었 습 니 다. 그리고 제출 스 크 립 트 가 실 행 된 후에 나 타 났 습 니 다.그래서 안에 있 는 내용 을 살 펴 보 았 습 니 다. 내용 은 다음 과 같 습 니 다. 위 에서 CONFIG 파일 이 존재 하지 않 는 다 는 것 을 알 렸 습 니 다. 그래서 작업 경로 의 문제 가 아 닐 까 생각 합 니 다. 자체 job. sub 스 크 립 트 는 디 렉 터 리 / home / sce / app / DL 에 앉 아 있 습 니 다.POLY / 1 / 폴 더 아래 에 모두 있 지만 Torque 를 통 해 제출 한 후에 기본 작업 디 렉 터 리 는 사용자 의 홈 디 렉 터 리 이기 때문에 CONFIG 파일 을 찾 을 수 없고 오류 가 발생 했 음 을 알 립 니 다. 그래서 저 는 스 크 립 트 가 있 는 경로 아래 의 모든 파일 을 사용자 홈 디 렉 터 리 / home / sec 아래 에 복사 해서 작업 관리 시스템 을 통 해 정상적으로 실 행 될 수 있 음 을 발 견 했 습 니 다.그리고 여러 기계 의 경우 에 도 정상적으로 작 동 할 수 있다.
다음날.나 는 스 크 립 트 에 또 문제 가 생 겼 다 는 것 을 알 았 다. 게다가 mpi 를 통 해 직접 실행 하거나 작업 스 크 립 트 를 통 해 직접 실행 하 는 것 은 모두 MPI 를 제시 했다.Abort 오류 가 발생 했 습 니 다. 반나절 을 했 는데 OUTPUT 파일 이 계속 출력 되 고 있 는 것 을 발 견 했 습 니 다. 그리고 CONFIG 파일 이 존재 하지 않 는 다 는 것 을 알 렸 습 니 다. 그리고 CONFIG 파일 을 복사 해서 정상 으로 돌 아 왔 습 니 다.
일주일 간 의 고생 끝 에 스 크 립 트 가 실행 되 지 못 하 는 근본 적 인 원인 은 경로 문제 라 는 것 을 알 게 되 었 습 니 다. 즉, 스 크 립 트 가 있 는 디 렉 터 리 는 PBS 의 작업 디 렉 터 리 가 아니 라 PBS 작업 디 렉 터 리 는 사용자 홈 디 렉 터 리 아래 에 있 기 때문에 프로그램의 관련 파일 도 사용자 의 홈 디 렉 터 리 에 복사 해 야 합 니 다.
스스로 문 제 를 해결 하 는 과정 을 돌 이 켜 보면 서 MPI 환경 과 Torque 환경 을 설정 해 왔 지만 프로그램의 구조 와 출력 파일 을 진지 하 게 보지 않 았 습 니 다. 그러나 이 프로그램 은 결 과 를 job. sub. o122 파일 에 출력 하지 않 고 OUTPUT 파일 에 출력 한 것 도 이 파일 의 출력 정 보 를 보지 않 고 디 버 깅 을 하 는 이유 입 니 다.
이번 디 버 깅 과정 에서 매우 중요 한 경험 을 정리 했다. 이런 문 제 를 해결 하려 면 아래 에서 위로 문 제 를 해결 하 는 방법 에 따라 먼저 어 렸 을 때 부터 검 사 를 시작 해 야 한다. 만약 에 문제 가 없다 면 MPI 환경 을 조사 하고 마지막 으로 호스트 문제 나 스케줄 링 시스템 의 문제 이다.그렇지 않 으 면 시간 을 낭비 하고 억울 한 길 을 갈 것 이다. 내 가 지 키 는 방식 은 위 에서 아래로 내 려 가 는 것 이기 때문에 많은 공 을 들 였 다. 마지막 으로 문 제 는 맨 아래 에 있 고 프로그램의 사용 방식 이 정확 하지 않 거나 프로그램의 경로 문제 이다.
개인 블 로그 주소:http://blog.zhangchi.xyz교류 하 러 오신 것 을 환영 합 니 다.

좋은 웹페이지 즐겨찾기