스파크 - 훌륭한 개발자 블로그

[참고] 스파크의 로컬 개발 환경을 만들었다

Spark에서 데이터의 중복을 제외하고 싶기 때문에, spark의 개발 환경을 로컬로 만들어 보았다. macOS 10.14.2 JDK Scala Spark IntelliJ sbt JDK 원래 jdk1.8.0_11 가 인스톨 끝났습니다만, 그 버젼이라고 잘 가지 않았으므로, 수동으로 최신의 JDK에 갱신했다. 그건 그렇고, macOS에는 기본 JRE가 설치되어 있지만 JDK는 없습니다. 「시스...

JDKsbtIntelliJScala스파크

Scala + Apache Spark를 IntelliJ에서 개발하는 방법

Scala + Spark로 Scalable 프로젝트를 개발하고 싶습니다. 여기서는 Spark의 Example에 나와있는 코드를 IntelliJ에서 개발하는 방법을 스크린 샷과 함께 소개합니다. 참고 git clone git://github.com/apache/spark.git -b branch-1.6 이제 Spark 1.6의 안정 버전이 다운로드됩니다 maven 설치 Spark 빌드 $ cd...

MavensbtIntelliJScala스파크

Spark Dataframe을 던져 히트 맵을 출력하는 함수

Spark df에서 히트 맵을 만들 때마다 몇 번이나 같은 것을 조사하고 있으므로, 비망록이 테라 함수로 해 둡니다. Spark df와 상관관계를 조사하는 컬럼을 넣은 리스트, 2개를 인수에 취합니다. iris를 사용해보십시오. Pandas df 로 할 때 클러스터가 달리고 있어 자주 하는 경우에는 요주의. 소규모 데이터로 빨리 컬럼의 상관을 보고 싶을 때....

스파크

SparkSQL에서 시계열 가상 데이터 테이블을 만드는 함수

제목대로 SparkSQL에서 시계열 가상 데이터 테이블을 만드는 함수입니다. 다음과 같은 분을 상정. 최근 Spark 만지기 시작했다 시계열 데이터로 Window 처리를 일괄 적으로 행하고 싶다 SparkSQL에서 보통 쿼리를 쓸 수 있다고 들었지만, MySQL에서의 일반적인 메소드는 사용할 수 없을 것 같습니다 PostgreSQL의 Generate Series를 사용할 수 있으면 좋겠는데 ...

스파크SQL

Databricks에서 Pyspark 데이터 프레임에서 R 데이터 프레임으로 변환

Databricks에서 Pyspark 데이터 프레임 -> SparkR 데이터 프레임 -> R 데이터 프레임으로 변환하는 방법 노트 노트북 노트북 노트북...

R스파크DatabricksPyspark

spark-shell 기상 조건에 따른 관객 동원 수에 미치는 영향 조사 (1)

목적 Apache Spark의 MLlib에 의한 기계 학습을 이용하여 기상 조건이 부여하는 고시엔 야구장에서의 프로야구 관객 동원수에 대한 영향을 조사해 보겠습니다. ※이쪽의 투고는 데이터의 준비 단계까지입니다 데이터 준비 기상 데이터 2019년 3월 29일부터 9월 30일까지의 기상 데이터를 기상청의 페이지로부터 취득했습니다(감사합니다). 다만, 니시노미야시의 데이터에는 기온이나 풍속 등의...

스파크spark-shell

Spark에서 실행이 빠른 쿼리를 작성하려면 suffle을 줄입니다.

SparkSQL에서는 같은 결과를 얻을 수 있어도 쿼리의 작성 방법에 의해 느리거나 빠르거나 한다. 어떤 쿼리를 쓰면 빠른가. 각각의 요구되는 사양에 따라 어떤 쿼리를 쓰면 빠른지 바뀌어 온다. 노드 간 통신을 줄이는 쿼리를 작성합니다. Spark에서는 노드간 통신이 연발하는 쿼리를 작성하면 계산 시간에 시간이 걸린다. 아래의 단순히 최소값을 찾는 쿼리를 생각해 보자. 예를 들어 4명이 _i...

스파크

Databricks에서 TensorFlowOnSpark 이동

이제 야후의 은 TensorFlow2.x를 업데이트했습니다. 빨리 Spark와 Tensor Flow를 연결하려고합니다. 하지만 지금은 Databricks를 사용하고 있으며 온라인 환경입니다. 공식 가이드는 모두 로컬 환경입니다. 조금 1시간 정도를 해 보면 겨우 mnist_data_setup.py 를 성공에 움직였습니다. 1, 필요한 라이브러리 PyPI로 다음 라이브러리 설치 이 세 가지 패...

TensorFlowOnSparkDatabricksPysparkTensorFlow스파크

Spark + HWC로 Hive 테이블을 만들고 자동으로 Metadata를 Atlas에 반영합니다.

HDP 3.1.x의 경우 Spark + HWC에서 Hive 테이블을 만들고 자동으로 Metadata를 Atlas에 반영하는 방법이 있습니다. 방법: 전제조건: Hive Warehouse Connector (HWC) and low-latency analytical processing (LLAP) Spark 설정 추가: Set the values of these properties as foll...

스파크atlashiveHWC

Polynote 사용하기

은 notebook입니다. Jupyter Notebook과 같은 것이라고 생각하면 이미지하기 쉽다고 생각합니다. 현재는 Scala, Python, SQL 에 대응하고 있어, 셀 마다 구분할 수 있는 것이 특징적입니다. 이번에는 환경 구축을 해 간단한 코드를 움직이는 것을 목표로 해 갑니다. macOS Catalina에서 작동하는지 확인했습니다. 참고. Apache Spark가 필요합니다. 영...

Polynote시각화데이터 분석Scala스파크

WSL anaconda jupyter에서 Spark 플레이 (2)

드디어 Spark RDD의 Helloword를 구현하려고, 에러 발생!! IllegalArgumentException: 'Unsupported class file major version 55' 갑자기 구글에 들었습니다. Java 버전에 문제가 있었던 것 같습니다. Java 8로 전환하고 update-alternatives에서 2를 선택 Jupyter 재시작 성공했습니다!! 비고: JAVA_...

스파크파이썬WSL

Intel MKL과 같은 네이티브 수학 라이브러리로 Spark 기계 학습 알고리즘 가속화

최근 일상에서 Spark MLlib의 SVD(특이값 분해)로 MovieLens의 추천을 구현하는 앱의 성능 조사를 하고 있습니다. Spark의 Driver, Executor의 메모리, Executor의 수, OverHead 등 다양한 Spark 파라미터를 조정해 시험해 왔습니다만, 좀처럼 개선할 수 없습니다. 그리고 한층 더 조사한 바, 원래 Spark Mllib의 SVD의 구현이 낡은 것 ...

svdmklsparkmllibHDP스파크

HDP3 Hive Warehouse connector를 사용하여 Spark에서 Hive 테이블에 액세스

HDP3 환경에서 Spark에서 Hive 테이블에 액세스하는 방법을 소개합니다. HDP 이전 버전은 Spark HiveContext/SparkSession을 사용하여 Hive 테이블에 액세스하고 있지만 HDP3는 Hortonworks에서 개발 한 Hive Warehouse Connector (HWC)를 사용하여 액세스 할 수 있습니다. 아래 그림과 같이 HDP3에서 Spark와 Hive 각각...

HDP스파크hiveHivewarehouseconnector

「Spark에 의한 실천 데이터 해석」을 실천

Spark의 공부로 이쪽의 서적을 읽기 시작했으므로, 비망록적으로 실시 내용을 쓰고 싶습니다. 기본적으로 서적의 내용과 같은 일을 하기 때문에, 세세한 설명은 하고 있지 않습니다. Spark란? Apache Spark는 여러 머신으로 구성된 클러스터에 걸쳐 프로그램을 분산시키는 엔진을 엔진에 프로그램을 작성하기 위한 정교한 모델과 결합한 오픈 소스 프레임워크입니다. (본문에서 발췌) 대규모 ...

스파크EMRScala

Windows 환경에서 Spark + Python을 사용해보십시오.

미국의 BigData의 담당자에게 BigData를 취급한다면 Spark에서 SQL이라든지를 분산시킨다고 해서라고 들었으므로, 조금 시험해 볼까라는 신경이 쓰였으므로 시험해 본다. ・Windows10 Home (Ver.1803) · JDK ・Spark · 파이썬 들어간 것 같아서 확인 이미 들어갔다. 포함되어 있지 않은 경우 필요 설치. Anaconda로 넣고 있지만, 만약을 위해 확인. 모듈...

스파크파이썬WindowsPyspark

Mac용 Docker를 사용하여 로컬 Kubernetes 클러스터에서 Spark 작업 실행

아래를 참조하십시오. Preferences -> Kubernetes -> Enable Kubernetes를 클릭합니다. 아래 기사를 참조하십시오. 샘플로 제공되는 spark-examples_2.11-2.4.3.jar를 실행합니다. 이것은 π를 계산하는 프로그램입니다. 먼저 클러스터 URL을 확인합니다. 이번에는 다음 기사를 참고하여 π를 계산하는 Spark 작업을 실행합니다. 인용한 기사와 ...

스파크Mac도커kubernetes

Ubuntu18에 Apache Spark 설치. 2019-08-05

2019년 8월 시점의 의 인스톨 메모입니다. (자신의 작업 메모입니다) 우선 뭔가 움직였다! 라는 것을 확인하는 곳까지 합니다. Java 설치 다운로드하고 확장하고 종료합니다. 우선 다운로드하고 전개한 그대로 진행합니다. 제대로 한다면 /usr/local라든지 /opt 의 아래 근처에 배치하면서 환경 변수도 각 쉘의 rc당에 써 두는 것이 좋습니다. spark-shell 시작하기 그리고 인...

스파크ubuntu18.04

【Apache Spark에서 기계 학습】SparseVector(희소 벡터)와 DenseVector(밀밀 벡터)

Apache Spark의 SparseVector (희소 벡터)와 DenseVector (밀도 벡터)에 대한 구성 Apache Spark 기계 학습 패키지 spark.ml Sparse(스퍼스)란 「스카스카 하고 있다」라는 의미. 한 벡터의 요소에 0이 많이 포함된 경우 예를 들면 라는 벡터가 있었을 때, 이 벡터를 표현하려면 "첫 번째 요소의 값이 0.1이고 마지막 요소의 값이 0.3이고 요소...

스파크자바기계 학습

SparkStreaming에 JMX를 연결하여 조사하기

SparkStreaming에서 발생한 문제를 조사하기 위해 JMX를 활성화하고 연결하는 절차를 설명합니다. Java 어플리케이션으로 JMX를 유효하게 할 때에는 -Dcom.sun.management.jmxremote.port 옵션으로 임의의 포트 번호를 지정한다고 생각합니다만 Spark 어플리케이션의 경우, 한 대의 서버로 복수의 executor가 일어나는 경우가 있어 포트 번호가 중복했을 ...

스파크sparkstreaming

Glue의 사용법적인 ㊳(WorkerType이란)

공식 문서는 이쪽 "작업 추가"를 클릭 작업 속성에서 "보안 설정 ...."을 클릭 "Standard", "G.1X", "G2.X" 중에서 선택할 수 있습니다. Standard:4vCPU, 16GB 메모리, 2Executor(예전까지) G.1X : 4vCPU, 16GB 메모리, 1Executor, 64GB 디스크 (예 : Executor1) G.2X:8vCPU, 32GB 메모리, 1Execu...

스파크glueAWS

Spark에서 Kafka를 통해 외부 데이터를 읽습니다. "Kafka Connect MQTT"

이 장에서는 Kafka 커넥터 라이브러리를 사용하여 MQTT 주제에 액세스하고 MQTT에 생성된 메시지를 Kafka 주제에 기록하는 프로세스에 대해 설명합니다. MQTT 브로커를 준비해야 합니다. 옵션 사용법 옵션 Kafka 커넥터를 이용하여 MQTT 브로커나 MQTT의 센서 데이터를 Apache Kafka에 흘려 갑니다. 이 Kafka 커넥터는 Apache Kafka의 공식 커넥터가 아니라...

Kafkamqtt연결mosquitto스파크

Spark를 REST API에서 실행하는 Apache Livy

Livy를 대략 요약하면 Spark의 처리를 REST 서버 경유(API)로 요청할 수 있는 소프트웨어가 됩니다. Livy enables programmatic, fault-tolerant, multi-tenant submission of Spark jobs from web/mobile apps (no Spark client needed). So, multiple users can intera...

스파크배치 처리

Spark/Scala를 Jupyter Notebook에서 실행

잠시 동안 Spark/Scala 코드를 팀에 공유 할 때, Jupyter 노트북으로 코드를 공유하는 것이 더 좋을까, Python 설치 Spark 설치 노트북에서 코드 실행 코라라의 일련의 순서에 대해 정리해 보았습니다. 흔한 Apache Toree를 사용한 절차입니다. pyenv 설치 환경 변수 설정 Anaconda 설치 설치 가능한 anaconda 버전 목록을 가져옵니다. 현재 최신 버전...

스파크JupyterScala

Spark Thrift Server를 구축하고 클라이언트 도구와 함께 작동하는 단계 (간단)

제목에 대해 일본어 정보가별로 없었기 때문에 써 보았습니다. 알아두면, BI 툴과의 제휴가 퍼질까..라고 생각했습니다. 라고 말하면서, 모두 로컬 환경에서 완결하는 순서가 되어 있습니다. HDFS는 사용하지 않습니다. 하지만 Spark 클러스터 환경의 경우에도 크게 절차는 변하지 않는다고 생각합니다. spark 2.4.0 이미 준비되어 있다면 필요하지 않습니다. Spark 2.4.0 다운로드...

스파크DBeaver데이터베이스Scala

Glue의 사용법 ㊲ (GlueDataCatalog 테이블에서 Spark SQL 쿼리를 직접 실행)

공식 문서는 이쪽 입력 데이터는 이쪽 cvlog 데이터베이스: se2 표: se2_in0 작업 이름: se2_job22 작업 매개 변수의 키에 "--enable-glue-datacatalog", 가치에 아무것도 넣지 않습니다 입력하십시오. 이제 본 기능이 활성화됩니다. ※DevEndpoint의 경우도 마찬가지인데 이 설정 개소를 찾을 수 없다・・ 아래 코드 붙여넣기 실행 se2_job22 C...

스파크glueAWS

Azure Databricks에서 Data Lake Storage Gen2 마운트

Gen1은 독립된 스토리지 서비스였지만, 이러한 특징(성능, 계층형 네임스페이스, POSIX 라이크한 액세스 컨트롤 등)을 계승하면서, 객체 스토리지인 Blob 스토리지를 베이스로 하여 상위 레이어에 분산 파일 시스템을 만들었다 하고 실현을 한 것이다. 서비스 프린시펄은 자원/서비스 레벨의 무인 조작을 실행하는 목적으로 테넌트 내에서 작성하는 Azure AD의 사용자 ID로, 혼란스럽게 말하...

Azure스파크DatabricksDataLake

Tableau Desktop에서 Azure Databricks에 연결

--- 인용 ---- Azure Databricks는 Microsoft Azure 클라우드 서비스 플랫폼에 최적화된 Apache Spark 기반 분석 플랫폼입니다. Apache Spark의 창시자들과 함께 설계되고 Azure에 통합된 Databricks는 한 번의 클릭으로 설정하고 효율적인 워크플로우 외에도 데이터 과학자, 데이터 엔지니어 및 비즈니스 분석가가 공동 작업할 수 있는 대화형 작...

BusinessIntelligenceAzureDatabricksAzureTableau스파크

Atlas에서 Spark의 Lineage 보기

스파크atlas

메일 클라이언트 "Spark"마이그레이션 정보

매년 항례로 새해의 정월 휴가 근처에서 PC류의 메인터넌스를 하고 있습니다. 이번은 macOS의 클린 인스톨로부터 실시합니다만, 조금 신경이 쓰인 것이 있었으므로 메모합니다. Qiita에서는 다른 Spark와 혼동되어 버리므로, 이 기사가 방해가 되어 버릴지도 모릅니다. 비교적 편리합니다. 어느 근처가 편리하고 있는지는 본 기사와는 직접 관련이 없기 때문에 할애합니다. Thunderbird와...

MacOSX스파크메일러메일