carbondata 1.1.0 설치 문서
17947 단어 데이터 형식 - carbondata
carbondata 는 색인 이 있 는 열 형 데이터 형식 으로 빅 데이터 빠 른 분석 플랫폼, 예 를 들 어 hadop, spark 등 이다.말하자면: 일종 의 데이터 형식!
2. build CarbonData
CarbonData 가 막 시작 되 었 기 때문에 현재 공식 문서 가 규범 에 맞지 않 고 비교적 적다.
2.1 선 결 조건:
OS: centos( unix OS)
Apache Maven( 3.3 )
Oracle Java 7 8
Apache Thrift 0.9.3
2.2 다운로드
git 는 carbondata 홈 페이지 를 다운로드 하여 발 행 된 버 전 을 다운로드 합 니 다.주소:https://dist.apache.org/repos/dist/release/carbondata/1.1.0/
3. 빌 드 명령
cabondata 디 렉 터 리 에 들 어가 면 구축 명령 구축 을 실행 합 니 다. 테스트 할 필요 가 없습니다. 기본 적 인 상황 에서 carbondata 는 Spark 1.6.2 로 구축 합 니 다.
mvn -DskipTests clean package( )
carbondata 도 서로 다른 버 전의 Spark 구축 을 지원 합 니 다.
mvn -DskipTests -Pspark-1.5 -Dspark.version=1.5.1 clean package
mvn -DskipTests -Pspark-1.5 -Dspark.version=1.5.2 clean package
mvn -DskipTests -Pspark-1.6 -Dspark.version=1.6.1 clean package
mvn -DskipTests -Pspark-1.6 -Dspark.version=1.6.2 clean package
mvn -DskipTests -Pspark-1.6 -Dspark.version=1.6.3 clean package
mvn -DskipTests -Pspark-2.1 -Dspark.version=2.1.0 clean package
4. 컴 파일 시작
cc@lcc carbondata-parent-1.1.0$ pwd
/Users/lcc/soft/carbondata/carbondata-parent-1.1.0
lcc@lcc carbondata-parent-1.1.0$ mvn -DskipTests -Pspark-2.1 -Dspark.version=2.1.0 clean package
...
[INFO] Reactor Summary:
[INFO]
[INFO] Apache CarbonData :: Parent ........................ SUCCESS [ 6.080 s]
[INFO] Apache CarbonData :: Common ........................ SUCCESS [ 13.184 s]
[INFO] Apache CarbonData :: Core .......................... SUCCESS [ 29.356 s]
[INFO] Apache CarbonData :: Processing .................... SUCCESS [ 10.520 s]
[INFO] Apache CarbonData :: Hadoop ........................ SUCCESS [ 7.743 s]
[INFO] Apache CarbonData :: Spark Common .................. SUCCESS [01:45 min]
[INFO] Apache CarbonData :: Spark2 ........................ SUCCESS [01:58 min]
[INFO] Apache CarbonData :: Spark Common Test ............. SUCCESS [ 46.705 s]
[INFO] Apache CarbonData :: Assembly ...................... SUCCESS [ 6.791 s]
[INFO] Apache CarbonData :: Spark2 Examples ............... SUCCESS [ 19.808 s]
[INFO] ------------------------------------------------------------------------
[INFO] BUILD SUCCESS
[INFO] ------------------------------------------------------------------------
[INFO] Total time: 06:05 min
[INFO] Finished at: 2018-09-26T16:08:08+08:00
[INFO] Final Memory: 92M/810M
[INFO] ------------------------------------------------------------------------
lcc@lcc carbondata-parent-1.1.0$ ll assembly/target/scala-2.11/
total 19512
drwxr-xr-x 3 lcc staff 96 9 26 16:07 ./
drwxr-xr-x 5 lcc staff 160 9 26 16:07 ../
-rw-r--r-- 1 lcc staff 9986219 9 26 16:07 carbondata_2.11-1.1.0-shade-hadoop2.2.0.jar
직접 컴 파일 에 성 공 했 습 니 다.
5. 복사 설치
./assembly/target/scala-2.1x/carbondata_xxx.jar
.메모: SPARK_HOME/carbonlib
폴 더 가 carbonlib
경로 에 존재 하지 않 으 면 만 듭 니 다.SPARK_HOME
.(carbonlib
파일 을 수정 하고 SPARK CLASSPATH 를 기 존 값 으로 추가 SPARK_HOME/conf/spark-env.sh
SPARK_HOME/carbonlib/*
클립 으로 복사 하고 파일 이름 을 carbon. properties 로 바 꿉 니 다../conf/carbon.properties.template
파일 에서 아래 표 에서 언급 한 속성 입 니 다.spark. driver. extraJavaOptions $SPARK_HOME/conf/
드라이버 에 추가 로 전달 되 는 JVM 옵션 입 니 다.예 를 들 어 GC 설정 이나 다른 로그 기록.spark. executor. extraJavaOptions
$SPARK_HOME/conf/spark-defaults.conf
는 executors 의 JVM 옵션 을 추가 로 전달 합 니 다.예 를 들 어 GC 설정 이나 다른 로그 기록.메모: 빈 칸 으로 구 분 된 여러 값 을 입력 할 수 있 습 니 다.lcc@lcc carbondata-parent-1.1.0$ mkdir /Users/lcc/soft/spark/spark-2.0.1-bin-hadoop2.7/carbonlib
lcc@lcc carbondata-parent-1.1.0$ cp assembly/target/scala-2.11/carbondata_2.11-1.1.0-shade-hadoop2.2.0.jar /Users/lcc/soft/spark/spark-2.0.1-bin-hadoop2.7/carbonlib
lcc@lcc carbondata-parent-1.1.0$
lcc@lcc carbondata-parent-1.1.0$ cp conf/carbon.properties.template /Users/lcc/soft/spark/spark-2.0.1-bin-hadoop2.7/conf/carbon.properties
lcc@lcc spark-2.0.1-bin-hadoop2.7$ vim conf/spark-env.sh
JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_131.jdk/Contents/Home
HADOOP_CONF_DIR=/Users/lcc/soft/hadoop/hadoop/etc/hadoop
SCALA_HOME=/Users/lcc/soft/scala/scala-2.12.6
SPARK_MASTER_HOST=lcc
SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=1
SPQRK_WORKER_MEMORY=1000m
SPARK_WORKER_PORT=7078
SPARK_WORKER_WEBUI_PORT=8081
SPARK_WORKER_INSTANCES=1
SPARK_WORKER_MEMORY=512M
SPARK_WORKER_INSTANCES=1
#spark.executor.extraClassPath
#spark.driver.extraClassPath=/Users/lcc/IdeaProjects/spark-authorizer/spark-auth/target/*
SPARK_CLASSPATH=$SPARK_HOME/carbonlib/*
lcc@lcc spark-2.0.1-bin-hadoop2.7$ vim conf/spark-defaults.conf
spark.driver.extraJavaOptions="-Dcarbon.properties.filepath = $SPARK_HOME/conf/carbon.properties"
spark.executor.extraJavaOptions="-Dcarbon.properties.filepath = $SPARK_HOME/conf/carbon.properties"
lcc@lcc spark-2.0.1-bin-hadoop2.7$ vi conf/carbon.properties
carbon.storelocation=hdfs://lcc:9000/Opt/CarbonStore
6. 설치 검증
직접 실행
lcc@lcc spark-2.0.1-bin-hadoop2.7$ spark-shell
lcc@lcc spark-2.0.1-bin-hadoop2.7$ spark-shell
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel).
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/Users/lcc/soft/spark/spark-2.0.1-bin-hadoop2.7/carbonlib/carbondata_2.11-1.1.0-shade-hadoop2.2.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/Users/lcc/soft/spark/spark-2.0.1-bin-hadoop2.7/jars/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
18/09/26 17:34:44 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
18/09/26 17:34:44 WARN SparkConf:
SPARK_CLASSPATH was detected (set to '/Users/lcc/soft/spark/spark-2.0.1-bin-hadoop2.7/carbonlib/*').
This is deprecated in Spark 1.0+.
Please instead use:
- ./spark-submit with --driver-class-path to augment the driver classpath
- spark.executor.extraClassPath to augment the executor classpath
18/09/26 17:34:44 WARN SparkConf: Setting 'spark.executor.extraClassPath' to '/Users/lcc/soft/spark/spark-2.0.1-bin-hadoop2.7/carbonlib/*' as a work-around.
18/09/26 17:34:44 WARN SparkConf: Setting 'spark.driver.extraClassPath' to '/Users/lcc/soft/spark/spark-2.0.1-bin-hadoop2.7/carbonlib/*' as a work-around.
18/09/26 17:34:44 WARN SparkConf:
SPARK_WORKER_INSTANCES was detected (set to '1').
This is deprecated in Spark 1.0+.
Please instead use:
- ./spark-submit with --num-executors to specify the number of executors
- Or set SPARK_EXECUTOR_INSTANCES
- spark.executor.instances to configure the number of instances in the spark config.
18/09/26 17:34:44 WARN Utils: Your hostname, lcc resolves to a loopback address: 127.0.0.1; using 192.168.1.184 instead (on interface en0)
18/09/26 17:34:44 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
18/09/26 17:34:45 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
18/09/26 17:34:46 WARN SparkContext: Use an existing SparkContext, some configuration may not take effect.
Spark context Web UI available at http://192.168.1.184:4041
Spark context available as 'sc' (master = local[*], app id = local-1537954485827).
Spark session available as 'spark'.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/___/ .__/\_,_/_/ /_/\_\ version 2.0.1
/_/
Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_131)
Type in expressions to have them evaluated.
Type :help for more information.
scala> import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.SparkSession
scala> import org.apache.spark.sql.CarbonSession._
import org.apache.spark.sql.CarbonSession._
scala> val carbon = SparkSession.builder().config(sc.getConf).getOrCreateCarbonSession("hdfs://lcc:9000/Opt/CarbonStore")
18/09/26 17:36:04 WARN SparkContext: Use an existing SparkContext, some configuration may not take effect.
carbon: org.apache.spark.sql.SparkSession = org.apache.spark.sql.CarbonSession@708dfe10
scala>
포 인 트 는 위 에 나 타 났 다.빨간색 글씨 체 는 맞다. 나 는 hadop 을 열지 않 았 고 hive 를 열지 않 았 다. 뒤의 것 은 계속 테스트 하지 않 았 다.
참고:https://blog.csdn.net/u013181284/article/details/73331170 컴 파일 은 연결 이 필요 하 다 고 하지만 실제로는 필요 하지 않다.