EMR - 훌륭한 개발자 블로그

macOS를 Catalina로 만들면 Amazon EMR의 JupyterHub에 액세스할 수 없습니다.

macOS를 Catalina로 업데이트하면 자체 서명 인증서를 신뢰하지 않습니다 (답니다) 이 영향인가, Chrome으로 「상세 정보→이 페이지에 액세스한다(안전하지 않습니다)」라고 하는 UI가 사라지고 있었다. →「어라, 평소의 방법으로 액세스할 수 없다!」가 되었다. 크롬의 윈도우가 액티브한 상태로 「thisisunsafe」라고 치면 갈 수 있었다. (그렇지 않고 & 할 수 있을지 모르겠...

ChromeJupyterHubSSLEMRmacOSCatalina

「Spark에 의한 실천 데이터 해석」을 실천

Spark의 공부로 이쪽의 서적을 읽기 시작했으므로, 비망록적으로 실시 내용을 쓰고 싶습니다. 기본적으로 서적의 내용과 같은 일을 하기 때문에, 세세한 설명은 하고 있지 않습니다. Spark란? Apache Spark는 여러 머신으로 구성된 클러스터에 걸쳐 프로그램을 분산시키는 엔진을 엔진에 프로그램을 작성하기 위한 정교한 모델과 결합한 오픈 소스 프레임워크입니다. (본문에서 발췌) 대규모 ...

스파크EMRScala

EMR에서 다른 계정의 S3 버킷 로드

Spark에서 실행되는 분산 처리 응용 프로그램이 있습니다. 내용으로서는 다른 계정의 S3의 로그 파일을 읽고, 자신의 계정의 S3에 정형된 로그를 배치한다. 버킷 자체가 특정 AWS 계정에서 읽을 수 있도록 버킷 정책을 변경합니다. 크로스 계정 정보(AWS STS)를 사용하여 임시 자격 증명을 Spark에 로드하고 사용하려고 했습니다. 이번에는 1, 2의 소개를 합니다. S3을 열고 버킷 ...

STS크로스 계정EMRS3hadoop

프록시 아래 EMR에서 '리소스 관리자' 보기

EMR을 실행해도 다음 오류로 인해 원인이 전혀 잡히지 않으므로 오류 원인을 자세히 보려면 리소스 관리자에 액세스하는 방법 PC가 회사와 같은 Proxy 환경에서 존재 mac 사용 대체로, 이하의 흐름이 됩니다. FireFox에 FoxyProxy를 설치 FoxyProxy 설정 콘솔에서 EMR 마스터 IP에 동적 포워딩을 수행합니다. FoxyProxy를 ON으로 설정 아래에서 이쪽을 참고로 했...

리소스 관리자EMRhadoopAWS

Spark 애플리케이션 디버깅 TIPS

어딘가에서 막히는/교착 상태 등을 확인하고 싶다면 스레드 덤프를 보는 것이 효과적이지만, 그냥 Spark UI에서 할 수 있습니다. jvisualvm 준비 jvisualvm에 플러그인을 넣어두면 버립니다. Tools > Plugins에서 플러그인 관리 화면을 열고 Threads Inspector 당 넣어두면 편리합니다. 단계 추가 응용 프로그램이 항아리에 고정되어 s3://path/to/ap...

스파크EMRAWS

Spark를 EMR로 사용하고 싶었습니다.

하기 사이트를 참고, 라고 하기보다, 거의 그대로 실시 csv를 ruby로 만듭니다. s3에 업로드 build.sbt 소스 코드는 다음을 원형 복사 사용하는 spark의 spark-defaults.conf에 다음을 추가 spark-defaults.conf (약간 정책 주위의 UI가 다르지만 조심해) 액세스 키와 비밀 키를 복사하십시오. 방금 SparkExampleApp.scala에 액세스 키...

Scala스파크EMRS3AWS

AWS Kinesis Streams + Spark Streaming에서 스트림 처리를 시도했습니다.

그래서 적당한 데이터 발생을 발생시켜 Kinesis Streams+Spark streaming에서 스트림 처리를 체험해 보았습니다. Spark 2.0.0 (EMR 사용) Kinesis Streams란? 즉, 데이터를 발생시키는 Producer 상당과 후단의 처리인 Consumer 상당을 작성할 필요가 있습니다. Spark Streaming이란? 대규모 데이터 분산 처리 프레임워크인 Apach...

해봤어스파크EMRKinesisAWS

프라이빗 서브넷의 Amazon EMR 클러스터에 NAT 게이트웨이가 필요하지 않습니까?

NAT 게이트웨이를 사용하지 않고 작업을 실행할 수 있습니다. 클러스터 시작 요청 자체는 인터넷을 통해 EMR 엔드 포인트에 API 요청을 던져야합니다 VPC 엔드포인트를 지원하지 않는 AWS 서비스와 통신이 필요한 작업 VPC 엔드포인트를 지원하는 AWS 서비스와 통신이 필요한 작업 VPC 환경에서 Amazon EMR 클러스터를 시작하는 방법은 무엇입니까? Amazon EMR 프라이빗 서브...

EMRvpcAWS

DynamoDB에서 EMR hive를 사용하여 S3에 CSV를 출력해 보았습니다.

이번에는 이런 느낌으로 했다. emr-dynamodb-export-test-2017-11-30/2130 버킷: emr-dynamodb-export-test-2017-11-30 폴더: 2130 クラスターを作成 클릭 クラスター名 를 입력합니다. EC2 キーペア를 지정합니다. 그 외는 디폴트인 채 クラスターを作成 를 클릭. (물론 변경해도 좋음) 잠시 기다려. 대기중이 되면 다음. マスターパブリッ...

DynamoDBhiveCSVEMRS3

EMR의 pyspark에서 Python3 시스템 사용

EMR에서 pyspark를 사용하려고하면 기본적으로 두 시스템이 사용됩니다. 3계를 어차피라면 사용하고 싶기 때문에 사용법을 조사해 보았습니다. 현재 최신 EMR 버전은 5.0.0이고 Spark에는 2.0.0이 포함되어 있습니다. 또한 파이썬 버전은 2.7.10을 사용합니다. Python3 시스템을 사용하려면 다음과 같은 매개 변수를 통해 EMR을 시작해야합니다. 이제 Python3.4를 사...

스파크EMR

Hbase on Amazon EMR에 대한 발판 서버 액세스

HBase on EMR 클라이언트 PC의 HBase 클라이언트에서 발판 서버(Bastion Server)를 통해 HBase 서버 접속 정보의 예 서버 public IP private IP private DNS 점프 서버 HBase(Master) ip-172-16-2-3.ap-northeast-1.compute.internal HBase(RegionServer) ip-172-16-2-4.ap-...

GoAWSEMRHBase