Jupyter에서 PySpark가 시작되지 않을 때의 해결 방법

본 기사에 대하여



Jupyter에서 Notebook을 열고 PySpark 커널을 시작해도 커널이 시작되지 않을 때의 해결 방법에 대해 설명합니다.

증상



Notebook을 열고 PySpark 커널을 시작해도 기동중의 마크가 나온 채 멈춘다.


원인



PySpark 커널을 시작하면 Spark 애플리케이션이 새로 생성됩니다.

설정에 따라 다르지만 Spark 응용 프로그램은 한 번에 하나만 실행할 수 있습니다.

그래서 이미 다른 Notebook을 열고 PySpark 커널이 기동하고 있으면, 그 PySpark 커널의 Spark 어플리케이션이 실행중이기 때문에, 나중에 열린 Notebook이 PySpark 커널을 스타트시켜도 Spark 어플리케이션은 멈춘 채로, PySpark를 시작할 수 없게 됩니다.

또한 Notebook을 열 때마다 새 Spark 응용 프로그램이 만들어지고 해당 Notebook을 닫아도 첨부 된 Spark 응용 프로그램은 삭제되지 않고 남아 있으므로 Notebook을 열거나 닫으면 Spark 응용 프로그램이 쌓여 버립니다.

해결 방법



일단 모든 Spark 응용 프로그램을 삭제하고 다시 노트북을 다시 시작합니다.
  • 열려있는 모든 Notebook 닫기
  • Jupyter의 Running 탭에서 모든 Notebook을 Shutdown
  • http://localhost:8088/에서 "YARN UI"를 엽니 다
  • [Applications]에서 Spark 애플리케이션 목록을 표시하고 삭제할 Spark 애플리케이션의 "Tracking UI"를 선택합니다.
    (아래 그림에서는 3개의 PySprak 커널의 Spark 어플리케이션이 Wait 상태로 남아 있으므로 이들을 삭제합니다)

  • Spark 응용 프로그램 세부 정보 페이지의 왼쪽 상단에서 'Kill Application'을 클릭하여 Spark 응용 프로그램을 삭제합니다.

  • PySpark 커널을 시작하려는 노트북을 열어 PySpark 커널을 시작합니다.
  • 좋은 웹페이지 즐겨찾기