PySpark에서 Parquet을 만들면 Time Stap이 임의의 시간에 수정됩니다.

1376 단어 ParquetPyspark
이전에는 PySpark를 이용해 Parquet 파일을 제작했습니다.
이때 "Time Stamp형"값이 임의로 변경되는 이벤트가 발생했기 때문에 해결 방법을 적어야 합니다.

카탈로그

  • 이벤트
  • 솔루션
  • 결과
  • 참조
  • 1. 이벤트


    이해하기 쉬운 대상표.
    Parquet 변환 전 Time Stamp 직접 출력
    왜 +9시간이 걸려야 완성할 수 있습니까?

    이런 문제는 대부분 시간대와 관계가 있다
    이번에도 시간대 설정 때문에

    2. 해결 방법


    spark-defaults.파일 이름은 conf 입니다.
    시간대를 기술하는 주석 부분이 있지만, 이 주석을 취소하십시오
    ※ conf 파일은 spark가 설치된 디렉토리\spark-2입니다.x.x-bin-hadoopx.x\conf 내
    spark-defaults.conf(변경 전)
    # spark.driver.extraJavaOptions      -Duser.timezone=UTC
    # spark.executor.extraJavaOptions    -Duser.timezone=UTC
    
    spark-defaults.conf(변경 후)
    spark.driver.extraJavaOptions      -Duser.timezone=UTC
    spark.executor.extraJavaOptions    -Duser.timezone=UTC
    
    주석을 제거한 후 덮어쓰고 저장하고 다시 시작하면 됩니다
    ※ 내 환경에서는 재가동 전 행동이 이상하다

    3. 결과


    spark-defaults.conf를 바꾸면 시간 스탬프를 바꿀 수 없습니다.

    4. 참조


    Spark Strutured Streaming automatically converts timestamp to local time

    좋은 웹페이지 즐겨찾기