1.Hive 표 데이터 읽 기 pyspark 는 hive 데 이 터 를 읽 는 것 이 매우 간단 합 니 다.전문 적 인 인터페이스 가 있 기 때문에 hbase 처럼 많은 설정 이 필요 하지 않 습 니 다.pyspark 가 제공 하 는 조작 hive 인 터 페 이 스 는 프로그램 이 직접 SQL 문 구 를 사용 하여 hive 에서 필요 한 데 이 터 를 조회 할 수 있 습 니 다.코드 는 다음 과 같 습 니 다.
tips: spark 는 위의 몇 가지 방식 으로 hive 를 읽 고 쓸 때 작업 을 제출 할 때 해당 하 는 설정 을 추가 해 야 합 니 다.그렇지 않 으 면 오류 가 발생 할 수 있 습 니 다. spark-submit --conf spark.sql.catalogImplementation=hive test.py 추가 지식:PySpark 는 SHC 프레임 워 크 를 기반 으로 HBase 데 이 터 를 읽 고 DataFrame 로 전환 첫째,우선 HBase 디 렉 터 리 lib 의 jar 패키지 와 SHC 의 jar 패 키 지 를 모든 노드 의 Spark 디 렉 터 리 lib 에 복사 해 야 합 니 다. 2.spark-defaults.conf 를 수정 하여 spark.driver.extraclassPath 와 spark.executor.extraclassPath 에 상기 jar 가방 이 있 는 경 로 를 추가 합 니 다. 3.클 러 스 터 재 개 코드
#/usr/bin/python
#-*- coding:utf-8 –*-
from pyspark import SparkContext
from pyspark.sql import SQLContext,HiveContext,SparkSession
from pyspark.sql.types import Row,StringType,StructField,StringType,IntegerType
from pyspark.sql.dataframe import DataFrame
sc = SparkContext(appName="pyspark_hbase")
sql_sc = SQLContext(sc)
dep = "org.apache.spark.sql.execution.datasources.hbase"
해명 데이터 출처 는 본인 의 이전 글 을 참고 하 시기 바 랍 니 다.여기 서 는 군말 하지 않 겠 습 니 다. schema 정의 참조 그림:
결국
이 편 은 python 에서 pyspark 를 사용 하여 Hive 데 이 터 를 읽 고 쓰 는 작업 이 바로 편집장 이 여러분 에 게 공유 하 는 모든 내용 입 니 다.참고 하 시기 바 랍 니 다.여러분 들 도 많이 응원 해 주 셨 으 면 좋 겠 습 니 다. 본문 제목:python 에서 pyspark 읽 기 쓰기 Hive 데이터 조작 사용 하기 본문 주소:http://www.cppcns.com/jiaoben/python/316974.html
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다: