Databricks on AWS > Oracle DB on RDS 연결 시 드라이버 설정

3396 단어 오라클Databricks
Databricks에서 Oracle DB를 참조 할 때의 메모입니다.
네트워크 설정도 끝났고 나머지는 문서에 있는 대로 하면 괜찮을 것이라고 생각하고 있었습니다만, 드라이버의 버전으로 막혔으므로 기록해 둡니다.

Oracle Driver



이번에는 VAR 파일을 사용합니다. 다운로드 페이지는 이쪽.

수많은 Databricks 클러스터는 Runtime 7.5를 사용하고 있지만 최신 버전의 ojdbc11.jar이라면 java가 지원하지 않으면 분노했습니다. 대신 ojdbc8.jar를 사용합니다. 아래를 다운로드.



드라이버 설치



관리하기 쉬운 디렉토리에 업로드합니다. 드라이버 자체는 은닉해야 할 정보가 아니므로 DBFS 아래에서 좋을 것입니다.


드라이버 경로를 삼가하십시오.


Spark API Format 복사


Cluster > Libraries > Install New > JDBC/S3 > Jar로 이동하여 복사한 파일 경로를 붙여넣고 Install을 클릭합니다.


이 상태가 되면 완료


연결



이 상태이면 이 문서의 쿼리를 두드리면 Databricks 테이블과 마찬가지로 액세스할 수 있습니다.


create_oracle_table
CREATE TABLE oracle_table
USING org.apache.spark.sql.jdbc
OPTIONS (
  dbtable 'table_name',
  driver 'oracle.jdbc.driver.OracleDriver',
  user 'username',
  password 'pasword',
  url 'jdbc:oracle:thin://@<hostname>:1521/<db>')

테이블화 할 수 있으면 다음과 같이 쿼리 발행 가능합니다.

파이썬
%sql
SELECT * from oracle_table

파이썬
query = "SELECT * from oracle_table"
df = spark.sql(query)

참고 (위 이외)

좋은 웹페이지 즐겨찾기