carbondata 1.1.0 설치 문서

1. 개념
carbondata 는 색인 이 있 는 열 형 데이터 형식 으로 빅 데이터 빠 른 분석 플랫폼, 예 를 들 어 hadop, spark 등 이다.말하자면: 일종 의 데이터 형식!
2. build CarbonData
CarbonData 가 막 시작 되 었 기 때문에 현재 공식 문서 가 규범 에 맞지 않 고 비교적 적다.
2.1 선 결 조건:
OS: centos( unix OS) 
Apache Maven(    3.3     ) 
Oracle Java 7 8 
Apache Thrift 0.9.3 
         

2.2 다운로드
git 는 carbondata 홈 페이지 를 다운로드 하여 발 행 된 버 전 을 다운로드 합 니 다.주소:https://dist.apache.org/repos/dist/release/carbondata/1.1.0/
3. 빌 드 명령
cabondata 디 렉 터 리 에 들 어가 면 구축 명령 구축 을 실행 합 니 다. 테스트 할 필요 가 없습니다. 기본 적 인 상황 에서 carbondata 는 Spark 1.6.2 로 구축 합 니 다.
mvn -DskipTests clean package(  )

carbondata 도 서로 다른 버 전의 Spark 구축 을 지원 합 니 다.

mvn -DskipTests -Pspark-1.5 -Dspark.version=1.5.1 clean package
mvn -DskipTests -Pspark-1.5 -Dspark.version=1.5.2 clean package
mvn -DskipTests -Pspark-1.6 -Dspark.version=1.6.1 clean package 
mvn -DskipTests -Pspark-1.6 -Dspark.version=1.6.2 clean package 
mvn -DskipTests -Pspark-1.6 -Dspark.version=1.6.3 clean package    
mvn -DskipTests -Pspark-2.1 -Dspark.version=2.1.0 clean package


4. 컴 파일 시작
cc@lcc carbondata-parent-1.1.0$ pwd
/Users/lcc/soft/carbondata/carbondata-parent-1.1.0
lcc@lcc carbondata-parent-1.1.0$ mvn -DskipTests -Pspark-2.1 -Dspark.version=2.1.0 clean package
...
[INFO] Reactor Summary:
[INFO]
[INFO] Apache CarbonData :: Parent ........................ SUCCESS [  6.080 s]
[INFO] Apache CarbonData :: Common ........................ SUCCESS [ 13.184 s]
[INFO] Apache CarbonData :: Core .......................... SUCCESS [ 29.356 s]
[INFO] Apache CarbonData :: Processing .................... SUCCESS [ 10.520 s]
[INFO] Apache CarbonData :: Hadoop ........................ SUCCESS [  7.743 s]
[INFO] Apache CarbonData :: Spark Common .................. SUCCESS [01:45 min]
[INFO] Apache CarbonData :: Spark2 ........................ SUCCESS [01:58 min]
[INFO] Apache CarbonData :: Spark Common Test ............. SUCCESS [ 46.705 s]
[INFO] Apache CarbonData :: Assembly ...................... SUCCESS [  6.791 s]
[INFO] Apache CarbonData :: Spark2 Examples ............... SUCCESS [ 19.808 s]
[INFO] ------------------------------------------------------------------------
[INFO] BUILD SUCCESS
[INFO] ------------------------------------------------------------------------
[INFO] Total time: 06:05 min
[INFO] Finished at: 2018-09-26T16:08:08+08:00
[INFO] Final Memory: 92M/810M
[INFO] ------------------------------------------------------------------------

lcc@lcc carbondata-parent-1.1.0$ ll assembly/target/scala-2.11/
total 19512
drwxr-xr-x  3 lcc  staff       96  9 26 16:07 ./
drwxr-xr-x  5 lcc  staff      160  9 26 16:07 ../
-rw-r--r--  1 lcc  staff  9986219  9 26 16:07 carbondata_2.11-1.1.0-shade-hadoop2.2.0.jar


직접 컴 파일 에 성 공 했 습 니 다.
5. 복사 설치
  • 폴 더 로 복사 ./assembly/target/scala-2.1x/carbondata_xxx.jar.메모: SPARK_HOME/carbonlib 폴 더 가 carbonlib 경로 에 존재 하지 않 으 면 만 듭 니 다.
  • Spark 클래스 경로 에 폴 더 경 로 를 추가 합 니 다 SPARK_HOME.(carbonlib 파일 을 수정 하고 SPARK CLASSPATH 를 기 존 값 으로 추가 SPARK_HOME/conf/spark-env.sh
  • 파일 을 CarbonData 저장 소 에서 파일 SPARK_HOME/carbonlib/* 클립 으로 복사 하고 파일 이름 을 carbon. properties 로 바 꿉 니 다.
  • 집단의 모든 노드 에서 2 단계 에서 5 단 계 를 반복 한다.
  • Spark 노드 [master] 에서 설정 ./conf/carbon.properties.template 파일 에서 아래 표 에서 언급 한 속성 입 니 다.spark. driver. extraJavaOptions $SPARK_HOME/conf/ 드라이버 에 추가 로 전달 되 는 JVM 옵션 입 니 다.예 를 들 어 GC 설정 이나 다른 로그 기록.

  • spark. executor. extraJavaOptions $SPARK_HOME/conf/spark-defaults.conf 는 executors 의 JVM 옵션 을 추가 로 전달 합 니 다.예 를 들 어 GC 설정 이나 다른 로그 기록.메모: 빈 칸 으로 구 분 된 여러 값 을 입력 할 수 있 습 니 다.
    lcc@lcc carbondata-parent-1.1.0$ mkdir /Users/lcc/soft/spark/spark-2.0.1-bin-hadoop2.7/carbonlib
    lcc@lcc carbondata-parent-1.1.0$ cp assembly/target/scala-2.11/carbondata_2.11-1.1.0-shade-hadoop2.2.0.jar /Users/lcc/soft/spark/spark-2.0.1-bin-hadoop2.7/carbonlib
    lcc@lcc carbondata-parent-1.1.0$
    lcc@lcc carbondata-parent-1.1.0$ cp conf/carbon.properties.template  /Users/lcc/soft/spark/spark-2.0.1-bin-hadoop2.7/conf/carbon.properties
    
    lcc@lcc spark-2.0.1-bin-hadoop2.7$ vim conf/spark-env.sh
    JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_131.jdk/Contents/Home
    HADOOP_CONF_DIR=/Users/lcc/soft/hadoop/hadoop/etc/hadoop
    SCALA_HOME=/Users/lcc/soft/scala/scala-2.12.6
    
    SPARK_MASTER_HOST=lcc
    SPARK_MASTER_PORT=7077
    SPARK_MASTER_WEBUI_PORT=8080
    
    SPARK_WORKER_CORES=1
    SPQRK_WORKER_MEMORY=1000m
    SPARK_WORKER_PORT=7078
    SPARK_WORKER_WEBUI_PORT=8081
    SPARK_WORKER_INSTANCES=1
    SPARK_WORKER_MEMORY=512M
    SPARK_WORKER_INSTANCES=1
    
    #spark.executor.extraClassPath
    #spark.driver.extraClassPath=/Users/lcc/IdeaProjects/spark-authorizer/spark-auth/target/*
    
    SPARK_CLASSPATH=$SPARK_HOME/carbonlib/*
    
    lcc@lcc spark-2.0.1-bin-hadoop2.7$ vim conf/spark-defaults.conf
    spark.driver.extraJavaOptions="-Dcarbon.properties.filepath = $SPARK_HOME/conf/carbon.properties"
    spark.executor.extraJavaOptions="-Dcarbon.properties.filepath = $SPARK_HOME/conf/carbon.properties"
    
    
    lcc@lcc spark-2.0.1-bin-hadoop2.7$ vi conf/carbon.properties
    carbon.storelocation=hdfs://lcc:9000/Opt/CarbonStore
    

    6. 설치 검증
    직접 실행
    lcc@lcc spark-2.0.1-bin-hadoop2.7$ spark-shell
    lcc@lcc spark-2.0.1-bin-hadoop2.7$ spark-shell
    Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
    Setting default log level to "WARN".
    To adjust logging level use sc.setLogLevel(newLevel).
    SLF4J: Class path contains multiple SLF4J bindings.
    SLF4J: Found binding in [jar:file:/Users/lcc/soft/spark/spark-2.0.1-bin-hadoop2.7/carbonlib/carbondata_2.11-1.1.0-shade-hadoop2.2.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]
    SLF4J: Found binding in [jar:file:/Users/lcc/soft/spark/spark-2.0.1-bin-hadoop2.7/jars/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLoggerBinder.class]
    SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
    SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
    18/09/26 17:34:44 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
    18/09/26 17:34:44 WARN SparkConf:
    SPARK_CLASSPATH was detected (set to '/Users/lcc/soft/spark/spark-2.0.1-bin-hadoop2.7/carbonlib/*').
    This is deprecated in Spark 1.0+.
    
    Please instead use:
     - ./spark-submit with --driver-class-path to augment the driver classpath
     - spark.executor.extraClassPath to augment the executor classpath
    
    18/09/26 17:34:44 WARN SparkConf: Setting 'spark.executor.extraClassPath' to '/Users/lcc/soft/spark/spark-2.0.1-bin-hadoop2.7/carbonlib/*' as a work-around.
    18/09/26 17:34:44 WARN SparkConf: Setting 'spark.driver.extraClassPath' to '/Users/lcc/soft/spark/spark-2.0.1-bin-hadoop2.7/carbonlib/*' as a work-around.
    18/09/26 17:34:44 WARN SparkConf:
    SPARK_WORKER_INSTANCES was detected (set to '1').
    This is deprecated in Spark 1.0+.
    
    Please instead use:
     - ./spark-submit with --num-executors to specify the number of executors
     - Or set SPARK_EXECUTOR_INSTANCES
     - spark.executor.instances to configure the number of instances in the spark config.
    
    18/09/26 17:34:44 WARN Utils: Your hostname, lcc resolves to a loopback address: 127.0.0.1; using 192.168.1.184 instead (on interface en0)
    18/09/26 17:34:44 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
    18/09/26 17:34:45 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
    18/09/26 17:34:46 WARN SparkContext: Use an existing SparkContext, some configuration may not take effect.
    Spark context Web UI available at http://192.168.1.184:4041
    Spark context available as 'sc' (master = local[*], app id = local-1537954485827).
    Spark session available as 'spark'.
    Welcome to
          ____              __
         / __/__  ___ _____/ /__
        _\ \/ _ \/ _ `/ __/  '_/
       /___/ .__/\_,_/_/ /_/\_\   version 2.0.1
          /_/
    
    Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_131)
    Type in expressions to have them evaluated.
    Type :help for more information.
    
    scala> import org.apache.spark.sql.SparkSession
    import org.apache.spark.sql.SparkSession
    
    scala> import org.apache.spark.sql.CarbonSession._
    import org.apache.spark.sql.CarbonSession._
    
    scala> val carbon = SparkSession.builder().config(sc.getConf).getOrCreateCarbonSession("hdfs://lcc:9000/Opt/CarbonStore")
    18/09/26 17:36:04 WARN SparkContext: Use an existing SparkContext, some configuration may not take effect.
    carbon: org.apache.spark.sql.SparkSession = org.apache.spark.sql.CarbonSession@708dfe10
    
    scala>
    

    포 인 트 는 위 에 나 타 났 다.빨간색 글씨 체 는 맞다. 나 는 hadop 을 열지 않 았 고 hive 를 열지 않 았 다. 뒤의 것 은 계속 테스트 하지 않 았 다.
    참고:https://blog.csdn.net/u013181284/article/details/73331170 컴 파일 은 연결 이 필요 하 다 고 하지만 실제로는 필요 하지 않다.

    좋은 웹페이지 즐겨찾기