hadoop hadoop & hive & metastore on mysql & S3AFileSystem을 Mac에서 움직일 때까지 이 기사의 시점에서 Amazon EMR은 Hadoop 배포판은 Amazon 2.7.3이며 hadoop 2.7.3 응용 프로그램은 Hive 2.1.1, Tez 0.8.4이므로 최대한 이것에 가깝다. hadoop 2.7.3 hive 2.1.1 mysql 5.5.49 EMR 버전 및 관련 버전 확인은 여기 homebrew에서 이전 버전 사용 2.1.1이 아니면 파티셔닝 MSCK REPAIR TAB... MySQL5.5awsS3hadoophiveTez Azure HDInsight + Microsoft R Server에서 연산 처리 분산 Microsoft Azure HDInsight는 Microsoft가 제공하는 Hadoop의 PaaS 서비스로 인프라 주변의 구축 노하우를 몰라도 훌륭한 Hadoop 클러스터를 구축할 수 있는 훌륭한 서비스입니다. 이번에는 이 Microsoft Azure HDInsight를 구축하고 구축한 클러스터에서 R 언어를 병렬로 실행해 보겠습니다. Azure 구독 이 클러스터를 구축하면 매시간 270엔... AzurerserverAzureHDInsighthadoop Hortonworks로 Azure HDInsight 구축 지원 은 Microsoft에서 제공하는 Hortonworks Data Platform(HDP) 기반의 관리형 빅 데이터 플랫폼입니다. Azure 대시보드에서 단 20분만에 Hadoop, Spark, HBase, Storm, Kafka 클러스터 등을 배포할 수 있습니다. 또한 스토리지에 Azure Blob 및 Azure Data Lake Storage를 사용할 수 있습니다. 시간 단위로 이용할 수 ... 스파크HDInsightHortonworkshadoop big data updates 2017/1/4 새해 1발째의 Hadoop Weekly를 쭉 읽고 한 가지 메모. Databricks의 2016 년 블로그 게시물 술집. Spark2가 출시된 적도 있고, DataFrames, Datasets 추악한 이야기가 많다. Tensorflow를 사용한 이미지 분석을 Spark에서 분산 실행한다는 이야기. 학습 된 모델을 Executor에 배포하여 모델 병렬 데이터 병렬 추론을 수행하는 Jupyter... TensorFlow스파크hadoop Sparkling water on Hortonworks Sandbox Azure에서 제공하는 Hortonworks Sandbox에서 을 설정하고 H2O Flow에서 Deep Learning으로 MNIST 모델을 구축해 봅니다. 가상 머신 부팅이 완료되면 먼저 http://<sandbox-public-ip>:8888/ 에 액세스하고, 필요 사항을 기입해 Terms of Use 에의 동의를 체크해 Submit 합니다. 다음은 .ssh/config 설정 예입니다. ... HortonworksDeepLearning스파크h2ohadoop Cloudera Manager에서 Hadoop 노드의 랙 ID 지정 Hadoop에는, 랙의 위치를 의식해 데이터를 배치하는 랙 어웨어 네스라고 하는 기능이 있다. 이 기능을 사용함으로써, 랙 장해 등에 의한 복수 노드의 동시 다운 등에 대한 내 장해성을 갖게 할 수있다. 이 기사에서는 Cloudera Manager에서 랙 ID를 설정하는 방법을 설명합니다. 랙 인식 기능 자체에 대해서는 을 참조하십시오. Cloudera Manager 5.9.0 최상위 메뉴에... ClouderaManagerhadoop Hadoop+Hive의 로컬 개발 환경 구축 자동화 + 을 사용하여 대량 데이터의 분석 기반을 구축할 수 있습니다. + 을 사용하는 경우도 늘고 있습니다. 다음과 같은 이유로 Hadoop+Hive/Hadoop+Spark 모두 로컬 개발 환경을 구축하기가 매우 어렵습니다. Hadoop+Hive의 경우를 예로 들면 다음과 같은 응용 프로그램을 설치해야 합니다. hadoop hadoop-client hadoop-conf-pseudo hadoop-h... 스파크hiveVagranthadoop HDP SANDBOX on SoftLayer by Rancher 님의 을 참고로, SoftLayer상에서 HDP SANDBOX의 Docker 컨테이너를 가동시켜, Rancher로 관리할 때까지를 시도해 온 기록입니다. 16GB 8GB 이상 필요합니다. 100GB CentOS7.x - Minimal Install(64 bit) HDP SANDBOX는 확실히 RHEL계였기 때문에 CentOS로 했습니다. yum install docker 로의 인스톨은 Cen... YARNHortonworksHDPrancherhadoop Twitter에서 NiFi로 데이터를 수집하고 데이터 흐름을 제어하고 Solr + Banana로 시각화해 봅시다. 이 블로그는 의 첫 번째 항목입니다. Hortonworks의 전시 부스 등에서 보았을지도 모르지만 Twitter에서 데이터를 NiFi로 수집하고 Apache Solr + Banana에서 시각화하는 데모를 만드는 방법을 설명합니다. 환경으로서는, VMware, Virtual Box등에서도 만들 수 있습니다만, 이번은 Microsoft Azure상에 만들고 싶습니다. 사실, 이 자료는 영어 튜토... bananaNiFiHortonworksSolrhadoop HDP 2.5 출시 각 서비스의 버전은 다음과 같습니다. HDP 2.5는 다음에서 다운로드할 수 있습니다. 주요 하이라이트는 다음과 같습니다. Dynamic Security: Apache Atlas + Ranger Integration Enterprise Spark at Scale: Apache Zeppelin Notebook for Spark Streamlined Operations: Apache Ambari... HDPhadoop Hortonworks Sandbox on VirtualBox Hortonworks Sandbox를 VirtualBox에서 시작하는 단계를 설명합니다. 사전에 VirtualBox를 아래에서 다운로드하여 설치해 둡시다. 권장 환경 VirtualBox: 4.2 or later CPU: 64-bit machine with a multi-core CPU that supports virtualization BIOS: enable for virtualization... VirtualBoxhadoop Cloud에서 Hadoop으로 데이터 전송 및 Spark에서 참조 만든 Cluster로 데이터를 전송하고 Spark에서 참조합니다. 로컬 (Mac)에서 webhdfs를 사용하여 hdfs로 파일을 전송합니다. webhdfs에는 REST 인터페이스가 있습니다. 기본적으로 webhdfs URL이 지불되므로 사용합니다. hdfs 구성 Bluemix의 Hadoop은 hdfs의 루트 디렉토리 아래에 아래 그림의 구성을 기본적으로 제공합니다. 또, user 디렉토리 한... Bluemix스파크biginsightshadoop EMR에서 다른 계정의 S3 버킷 로드 Spark에서 실행되는 분산 처리 응용 프로그램이 있습니다. 내용으로서는 다른 계정의 S3의 로그 파일을 읽고, 자신의 계정의 S3에 정형된 로그를 배치한다. 버킷 자체가 특정 AWS 계정에서 읽을 수 있도록 버킷 정책을 변경합니다. 크로스 계정 정보(AWS STS)를 사용하여 임시 자격 증명을 Spark에 로드하고 사용하려고 했습니다. 이번에는 1, 2의 소개를 합니다. S3을 열고 버킷 ... STS크로스 계정EMRS3hadoop Windows 7 (Virtualbox 내)에서 Hortonworks Sandbox 튜토리얼을 실행할 때까지 하지만 조금씩 사이트 디자인이 바뀌어 길을 잃기 때문에 메모는 남겨 두자 ... · 메모리 8G · 가정 LAN Windows에 기본적으로 설치하는 것은 상당히 힘든 것 같기 때문에, 이번에도 가능한 가상 환경을 얻는다고, 중간에있는 "VIRTUALBOX 용 다운로드"라는 것을 누르면 오른쪽에 REGISTER ~가 나오므로 좋은 느낌에 메워 "SUBMIT" 8G를 넘는 파일이 나오기 때문에 ... HDPhadoop 프록시 아래 EMR에서 '리소스 관리자' 보기 EMR을 실행해도 다음 오류로 인해 원인이 전혀 잡히지 않으므로 오류 원인을 자세히 보려면 리소스 관리자에 액세스하는 방법 PC가 회사와 같은 Proxy 환경에서 존재 mac 사용 대체로, 이하의 흐름이 됩니다. FireFox에 FoxyProxy를 설치 FoxyProxy 설정 콘솔에서 EMR 마스터 IP에 동적 포워딩을 수행합니다. FoxyProxy를 ON으로 설정 아래에서 이쪽을 참고로 했... 리소스 관리자EMRhadoopAWS HDP를 VirtualBox로 움직여보세요 7월부터 라는 Hadoop 회사에 입사했습니다. 전직에서도 Hadoop을 만지고 있거나 이라는 책을 내거나 하고 있었지만, HDP를 만지고 있었던 것도 아니고, Hortonworks가 서포트하는 제품도 상당히 많기 때문에, 공부가 있으면 그들을 조사하거나 움직이거나 한 일을 게시하고 싶습니다. 그래서 이번에는 HDP를 움직여 보겠습니다. 덧붙여서, Hadoop에 관련되어 있는 분이라면 아시는... HDPhadoop hadoop (giraph)에서 동작하는 분산 그래프 분석기 sotera-DGA의 동작 검증 (수정판) 에서 "분산 그래프 분석기 sotera/distributed-graph-analytics (이하 Sotera-DGA)"의 louvain 방법 샘플을 실행했지만 결과의 타당성을 알지 못했기 때문에 곳곳에서 자주 사용되었습니다. 하고 있는 python-louvain의 출력 결과와 비교 검증해 보자. 아래의 코드로 Sotera-DGA용 포맷으로 출력한다. 작업 실행 방법에 대한 자세한 내용은 을 ... giraphlouvain기계 학습hadoop Mac(OS X 10.11)에 올인원인 Spark 개발 환경 구축 Mac에 올인원 Spark 개발 환경을 구축하는 절차 요약 Mac에서 Hadoop을 움직이기 때문에 실용적이지는 않지만 최소한의 개발 환경으로는 가치가 있다고 생각합니다. OS X 10.11.1 Java 1.7.0_45 Scala 2.11.7 Homebrew 0.9.9 Hadoop 2.7.2 Spark 1.6.1 이번에는 Homebrew를 사용합니다. Hadoop 설치가 끝나면 native-... MacOSX스파크Scalahadoop StreamSets Data Collector 소개 미국에 거주하는 자바 여자입니다. StreamSets라고 하는 샌프란시스코의 스타트업(이라고 할까 자신이 일하고 있는 회사입니다만 w)가 개발하고 있는, Data Collecter에 대해 소개해 보겠습니다. 회사 홈페이지에 따르면 StreamSets Data Collector is a lightweight, powerful engine that streams data in real time.... Elasticsearchstreamsetshadoop Docker로 Cloudera Manager 시작 Cloudera가 제공하는 Cloudera Quickstart의 docker image를 사용하여 Cloudera Manager를 시작해 보았습니다. Mac OS Docker 설치됨 Cloudera Quickstart image 설치 우선 터미널에서$ docker pull cloudera/quickstart:latest(상당히 오래 기다렸다···) Docker 이미지 시작 이것이라고 Dock... 도커hadoop Apache HDFS/hadoop을 Single Node Cluster로 움직여 보았습니다. 이번에는 을 시도했습니다. 그건 그렇고, HDFS는 "Hadoop Distributed File System"이라는 것입니다. JDK 환경을 설치하고 JAVA_HOME 환경 변수에 설정합니다. ssh 환경 설정 ssh localhost에서 비밀번호 문의가 없는지 확인 Hadoop 다운로드 hadoop 구성 파일 수정 먼저 core-site.xml 편집 계속해서 hdfs-site.xml 편집 ... Hdfshadoop hadoop cluster@docker container · hadoop을 1에서 공부하기 위해 우선 컨테이너에 환경 구축 · 수고를 줄이기 위해 sequenceiq/hadoop-docker를 이용한다 ・아래 구성으로 구축 노드 이름 역할 hadoop1 Namenode/ResourceManager/datanode/NodeManager hadoop2 datanode/NodeManager hadoop3 datanode/NodeManager 관리 화면 ... Hdfshadoop 파일 디스크립터의 상한 설정 의 18일째입니다. Hadoop, HBase, Spark 클러스터는 각 프로세스 대량의 파일을 오픈하므로, Linux 디폴트의 파일 디스크립터 상한에 쉽게 도달하게 됩니다. 상한에 도달하면 클러스터가 제대로 작동하지 않으므로 기본적으로 상한을 늘려야합니다. 예를 들어 HBase의 경우 32768로 설정하는 것이 좋습니다. 참고 1: 4. Basic Prerequisites - Limits o... 스파크ClouderaManagerhadoop Cloudera Manager 2015년 되돌아보기 Cloudera Manager(이하 CM)의 최신 버전은 12월에 출시되었습니다5.5.1. 세어 보니, 2015년은 실로 22회의 업데이트 릴리스(버그 픽스 릴리스 포함)가 있었습니다. 그 중 새로운 기능을 포함한 마이너 업데이트는 5.4와 5.5의 두 번이었습니다. 본 포스트에서는 5.4와 5.5에서 추가된 새로운 기능을 소개하고 싶습니다. 참고: What's New in Cloudera ... ClouderaManagerhadoop 역할 그룹을 만들고 호스트 리소스에 맞는 설정 적용 의 11일째입니다. Cloudera Manager(이하 CM)를 사용하는 경우 서비스와 역할이라는 단어를 자주 볼 수 있습니다. 서비스는 HDFS 및 YARN과 같은 Apache 프로젝트 이름에 (일반적으로) 해당 이름을 나타냅니다. 반면에 역할은 서비스가 있는 각 프로세스입니다. 즉, HDFS 서비스의 역할은 NameNode나 DataNode, YARN 서비스의 역할은 ResourceMan... ClouderaManagerhadoop How Cloudera Manager Makes Hadoop Troubleshooting Easy 의 9일째입니다. 지난 11/10에 개최된 Cloudera World Tokyo 2015에서 Troubleshooting Using Cloudera Manager라는 제목으로 강연했습니다. 내용은 Cloudera 지원 팀의 확대와 Cloudera Manager(이하 CM)의 변천, Cloudera의 엔지니어가 CM을 어떻게 문제 해결에 도움이 되는지 등이었습니다. 자료는 이하에서 공개되고 있... ClouderaManagerhadoop 클러스터 전체에서 로그 검색 의 7일째입니다. 의외로 알려지지 않은 (느끼는) 기능 중 하나는 로그 검색입니다. 이는 Cloudera Manager(이하 CM)에서 관리하는 모든 노드의 모든 프로세스에 대해 횡단적으로 검색을 수행할 수 있는 좋은 방법이므로 이 게시물에서 소개하고 싶습니다. 참고 문서: Logs 클러스터 문제를 해결할 때 블록이 '언제', '어떤 파일'에 연결되어 만들어지고 '어떤 데이터 노드'에 '언제... ClouderaManagerhadoop 클러스터의 로그 디렉토리 변경 의 6일째입니다. Cloudera Manager(이하 CM)에서 관리하는 클러스터의 로그는 기본적으로 모두/var/log 이하로 출력되지만 요구 사항에 따라 모든 디렉토리로 출력하고 싶을 수도 있습니다. 이 포스트에서는 변경 방법에 대해 간단히 설명합니다. 각 서비스의 설정 화면에서 '로그' 카테고리로 이동하여 변경하면 됩니다. 이는 CM의 Service Monitor 및 Host Monit... ClouderaManagerhadoop Cloudera Manager의 NameNode HA 마법사 의 4일째입니다. 아직도 HDFS는 SPOF가! 라는 쪽이 있습니다(정말 있다). NameNode의 HA는 이미 3년 이상 전에 구현되어 있으며, 프로덕션 환경에서 당연히 사용되고 있습니다. HA 구성으로의 마이그레이션은 Cloudera Manager를 사용하면 간단합니다. HA 마이그레이션 마법사는 아름답고 간단하기 때문에 여기에서 스크린 샷과 함께 절차를 소개하고 싶습니다. Clouder... ClouderaManagerhadoop 이전 기사 보기
hadoop & hive & metastore on mysql & S3AFileSystem을 Mac에서 움직일 때까지 이 기사의 시점에서 Amazon EMR은 Hadoop 배포판은 Amazon 2.7.3이며 hadoop 2.7.3 응용 프로그램은 Hive 2.1.1, Tez 0.8.4이므로 최대한 이것에 가깝다. hadoop 2.7.3 hive 2.1.1 mysql 5.5.49 EMR 버전 및 관련 버전 확인은 여기 homebrew에서 이전 버전 사용 2.1.1이 아니면 파티셔닝 MSCK REPAIR TAB... MySQL5.5awsS3hadoophiveTez Azure HDInsight + Microsoft R Server에서 연산 처리 분산 Microsoft Azure HDInsight는 Microsoft가 제공하는 Hadoop의 PaaS 서비스로 인프라 주변의 구축 노하우를 몰라도 훌륭한 Hadoop 클러스터를 구축할 수 있는 훌륭한 서비스입니다. 이번에는 이 Microsoft Azure HDInsight를 구축하고 구축한 클러스터에서 R 언어를 병렬로 실행해 보겠습니다. Azure 구독 이 클러스터를 구축하면 매시간 270엔... AzurerserverAzureHDInsighthadoop Hortonworks로 Azure HDInsight 구축 지원 은 Microsoft에서 제공하는 Hortonworks Data Platform(HDP) 기반의 관리형 빅 데이터 플랫폼입니다. Azure 대시보드에서 단 20분만에 Hadoop, Spark, HBase, Storm, Kafka 클러스터 등을 배포할 수 있습니다. 또한 스토리지에 Azure Blob 및 Azure Data Lake Storage를 사용할 수 있습니다. 시간 단위로 이용할 수 ... 스파크HDInsightHortonworkshadoop big data updates 2017/1/4 새해 1발째의 Hadoop Weekly를 쭉 읽고 한 가지 메모. Databricks의 2016 년 블로그 게시물 술집. Spark2가 출시된 적도 있고, DataFrames, Datasets 추악한 이야기가 많다. Tensorflow를 사용한 이미지 분석을 Spark에서 분산 실행한다는 이야기. 학습 된 모델을 Executor에 배포하여 모델 병렬 데이터 병렬 추론을 수행하는 Jupyter... TensorFlow스파크hadoop Sparkling water on Hortonworks Sandbox Azure에서 제공하는 Hortonworks Sandbox에서 을 설정하고 H2O Flow에서 Deep Learning으로 MNIST 모델을 구축해 봅니다. 가상 머신 부팅이 완료되면 먼저 http://<sandbox-public-ip>:8888/ 에 액세스하고, 필요 사항을 기입해 Terms of Use 에의 동의를 체크해 Submit 합니다. 다음은 .ssh/config 설정 예입니다. ... HortonworksDeepLearning스파크h2ohadoop Cloudera Manager에서 Hadoop 노드의 랙 ID 지정 Hadoop에는, 랙의 위치를 의식해 데이터를 배치하는 랙 어웨어 네스라고 하는 기능이 있다. 이 기능을 사용함으로써, 랙 장해 등에 의한 복수 노드의 동시 다운 등에 대한 내 장해성을 갖게 할 수있다. 이 기사에서는 Cloudera Manager에서 랙 ID를 설정하는 방법을 설명합니다. 랙 인식 기능 자체에 대해서는 을 참조하십시오. Cloudera Manager 5.9.0 최상위 메뉴에... ClouderaManagerhadoop Hadoop+Hive의 로컬 개발 환경 구축 자동화 + 을 사용하여 대량 데이터의 분석 기반을 구축할 수 있습니다. + 을 사용하는 경우도 늘고 있습니다. 다음과 같은 이유로 Hadoop+Hive/Hadoop+Spark 모두 로컬 개발 환경을 구축하기가 매우 어렵습니다. Hadoop+Hive의 경우를 예로 들면 다음과 같은 응용 프로그램을 설치해야 합니다. hadoop hadoop-client hadoop-conf-pseudo hadoop-h... 스파크hiveVagranthadoop HDP SANDBOX on SoftLayer by Rancher 님의 을 참고로, SoftLayer상에서 HDP SANDBOX의 Docker 컨테이너를 가동시켜, Rancher로 관리할 때까지를 시도해 온 기록입니다. 16GB 8GB 이상 필요합니다. 100GB CentOS7.x - Minimal Install(64 bit) HDP SANDBOX는 확실히 RHEL계였기 때문에 CentOS로 했습니다. yum install docker 로의 인스톨은 Cen... YARNHortonworksHDPrancherhadoop Twitter에서 NiFi로 데이터를 수집하고 데이터 흐름을 제어하고 Solr + Banana로 시각화해 봅시다. 이 블로그는 의 첫 번째 항목입니다. Hortonworks의 전시 부스 등에서 보았을지도 모르지만 Twitter에서 데이터를 NiFi로 수집하고 Apache Solr + Banana에서 시각화하는 데모를 만드는 방법을 설명합니다. 환경으로서는, VMware, Virtual Box등에서도 만들 수 있습니다만, 이번은 Microsoft Azure상에 만들고 싶습니다. 사실, 이 자료는 영어 튜토... bananaNiFiHortonworksSolrhadoop HDP 2.5 출시 각 서비스의 버전은 다음과 같습니다. HDP 2.5는 다음에서 다운로드할 수 있습니다. 주요 하이라이트는 다음과 같습니다. Dynamic Security: Apache Atlas + Ranger Integration Enterprise Spark at Scale: Apache Zeppelin Notebook for Spark Streamlined Operations: Apache Ambari... HDPhadoop Hortonworks Sandbox on VirtualBox Hortonworks Sandbox를 VirtualBox에서 시작하는 단계를 설명합니다. 사전에 VirtualBox를 아래에서 다운로드하여 설치해 둡시다. 권장 환경 VirtualBox: 4.2 or later CPU: 64-bit machine with a multi-core CPU that supports virtualization BIOS: enable for virtualization... VirtualBoxhadoop Cloud에서 Hadoop으로 데이터 전송 및 Spark에서 참조 만든 Cluster로 데이터를 전송하고 Spark에서 참조합니다. 로컬 (Mac)에서 webhdfs를 사용하여 hdfs로 파일을 전송합니다. webhdfs에는 REST 인터페이스가 있습니다. 기본적으로 webhdfs URL이 지불되므로 사용합니다. hdfs 구성 Bluemix의 Hadoop은 hdfs의 루트 디렉토리 아래에 아래 그림의 구성을 기본적으로 제공합니다. 또, user 디렉토리 한... Bluemix스파크biginsightshadoop EMR에서 다른 계정의 S3 버킷 로드 Spark에서 실행되는 분산 처리 응용 프로그램이 있습니다. 내용으로서는 다른 계정의 S3의 로그 파일을 읽고, 자신의 계정의 S3에 정형된 로그를 배치한다. 버킷 자체가 특정 AWS 계정에서 읽을 수 있도록 버킷 정책을 변경합니다. 크로스 계정 정보(AWS STS)를 사용하여 임시 자격 증명을 Spark에 로드하고 사용하려고 했습니다. 이번에는 1, 2의 소개를 합니다. S3을 열고 버킷 ... STS크로스 계정EMRS3hadoop Windows 7 (Virtualbox 내)에서 Hortonworks Sandbox 튜토리얼을 실행할 때까지 하지만 조금씩 사이트 디자인이 바뀌어 길을 잃기 때문에 메모는 남겨 두자 ... · 메모리 8G · 가정 LAN Windows에 기본적으로 설치하는 것은 상당히 힘든 것 같기 때문에, 이번에도 가능한 가상 환경을 얻는다고, 중간에있는 "VIRTUALBOX 용 다운로드"라는 것을 누르면 오른쪽에 REGISTER ~가 나오므로 좋은 느낌에 메워 "SUBMIT" 8G를 넘는 파일이 나오기 때문에 ... HDPhadoop 프록시 아래 EMR에서 '리소스 관리자' 보기 EMR을 실행해도 다음 오류로 인해 원인이 전혀 잡히지 않으므로 오류 원인을 자세히 보려면 리소스 관리자에 액세스하는 방법 PC가 회사와 같은 Proxy 환경에서 존재 mac 사용 대체로, 이하의 흐름이 됩니다. FireFox에 FoxyProxy를 설치 FoxyProxy 설정 콘솔에서 EMR 마스터 IP에 동적 포워딩을 수행합니다. FoxyProxy를 ON으로 설정 아래에서 이쪽을 참고로 했... 리소스 관리자EMRhadoopAWS HDP를 VirtualBox로 움직여보세요 7월부터 라는 Hadoop 회사에 입사했습니다. 전직에서도 Hadoop을 만지고 있거나 이라는 책을 내거나 하고 있었지만, HDP를 만지고 있었던 것도 아니고, Hortonworks가 서포트하는 제품도 상당히 많기 때문에, 공부가 있으면 그들을 조사하거나 움직이거나 한 일을 게시하고 싶습니다. 그래서 이번에는 HDP를 움직여 보겠습니다. 덧붙여서, Hadoop에 관련되어 있는 분이라면 아시는... HDPhadoop hadoop (giraph)에서 동작하는 분산 그래프 분석기 sotera-DGA의 동작 검증 (수정판) 에서 "분산 그래프 분석기 sotera/distributed-graph-analytics (이하 Sotera-DGA)"의 louvain 방법 샘플을 실행했지만 결과의 타당성을 알지 못했기 때문에 곳곳에서 자주 사용되었습니다. 하고 있는 python-louvain의 출력 결과와 비교 검증해 보자. 아래의 코드로 Sotera-DGA용 포맷으로 출력한다. 작업 실행 방법에 대한 자세한 내용은 을 ... giraphlouvain기계 학습hadoop Mac(OS X 10.11)에 올인원인 Spark 개발 환경 구축 Mac에 올인원 Spark 개발 환경을 구축하는 절차 요약 Mac에서 Hadoop을 움직이기 때문에 실용적이지는 않지만 최소한의 개발 환경으로는 가치가 있다고 생각합니다. OS X 10.11.1 Java 1.7.0_45 Scala 2.11.7 Homebrew 0.9.9 Hadoop 2.7.2 Spark 1.6.1 이번에는 Homebrew를 사용합니다. Hadoop 설치가 끝나면 native-... MacOSX스파크Scalahadoop StreamSets Data Collector 소개 미국에 거주하는 자바 여자입니다. StreamSets라고 하는 샌프란시스코의 스타트업(이라고 할까 자신이 일하고 있는 회사입니다만 w)가 개발하고 있는, Data Collecter에 대해 소개해 보겠습니다. 회사 홈페이지에 따르면 StreamSets Data Collector is a lightweight, powerful engine that streams data in real time.... Elasticsearchstreamsetshadoop Docker로 Cloudera Manager 시작 Cloudera가 제공하는 Cloudera Quickstart의 docker image를 사용하여 Cloudera Manager를 시작해 보았습니다. Mac OS Docker 설치됨 Cloudera Quickstart image 설치 우선 터미널에서$ docker pull cloudera/quickstart:latest(상당히 오래 기다렸다···) Docker 이미지 시작 이것이라고 Dock... 도커hadoop Apache HDFS/hadoop을 Single Node Cluster로 움직여 보았습니다. 이번에는 을 시도했습니다. 그건 그렇고, HDFS는 "Hadoop Distributed File System"이라는 것입니다. JDK 환경을 설치하고 JAVA_HOME 환경 변수에 설정합니다. ssh 환경 설정 ssh localhost에서 비밀번호 문의가 없는지 확인 Hadoop 다운로드 hadoop 구성 파일 수정 먼저 core-site.xml 편집 계속해서 hdfs-site.xml 편집 ... Hdfshadoop hadoop cluster@docker container · hadoop을 1에서 공부하기 위해 우선 컨테이너에 환경 구축 · 수고를 줄이기 위해 sequenceiq/hadoop-docker를 이용한다 ・아래 구성으로 구축 노드 이름 역할 hadoop1 Namenode/ResourceManager/datanode/NodeManager hadoop2 datanode/NodeManager hadoop3 datanode/NodeManager 관리 화면 ... Hdfshadoop 파일 디스크립터의 상한 설정 의 18일째입니다. Hadoop, HBase, Spark 클러스터는 각 프로세스 대량의 파일을 오픈하므로, Linux 디폴트의 파일 디스크립터 상한에 쉽게 도달하게 됩니다. 상한에 도달하면 클러스터가 제대로 작동하지 않으므로 기본적으로 상한을 늘려야합니다. 예를 들어 HBase의 경우 32768로 설정하는 것이 좋습니다. 참고 1: 4. Basic Prerequisites - Limits o... 스파크ClouderaManagerhadoop Cloudera Manager 2015년 되돌아보기 Cloudera Manager(이하 CM)의 최신 버전은 12월에 출시되었습니다5.5.1. 세어 보니, 2015년은 실로 22회의 업데이트 릴리스(버그 픽스 릴리스 포함)가 있었습니다. 그 중 새로운 기능을 포함한 마이너 업데이트는 5.4와 5.5의 두 번이었습니다. 본 포스트에서는 5.4와 5.5에서 추가된 새로운 기능을 소개하고 싶습니다. 참고: What's New in Cloudera ... ClouderaManagerhadoop 역할 그룹을 만들고 호스트 리소스에 맞는 설정 적용 의 11일째입니다. Cloudera Manager(이하 CM)를 사용하는 경우 서비스와 역할이라는 단어를 자주 볼 수 있습니다. 서비스는 HDFS 및 YARN과 같은 Apache 프로젝트 이름에 (일반적으로) 해당 이름을 나타냅니다. 반면에 역할은 서비스가 있는 각 프로세스입니다. 즉, HDFS 서비스의 역할은 NameNode나 DataNode, YARN 서비스의 역할은 ResourceMan... ClouderaManagerhadoop How Cloudera Manager Makes Hadoop Troubleshooting Easy 의 9일째입니다. 지난 11/10에 개최된 Cloudera World Tokyo 2015에서 Troubleshooting Using Cloudera Manager라는 제목으로 강연했습니다. 내용은 Cloudera 지원 팀의 확대와 Cloudera Manager(이하 CM)의 변천, Cloudera의 엔지니어가 CM을 어떻게 문제 해결에 도움이 되는지 등이었습니다. 자료는 이하에서 공개되고 있... ClouderaManagerhadoop 클러스터 전체에서 로그 검색 의 7일째입니다. 의외로 알려지지 않은 (느끼는) 기능 중 하나는 로그 검색입니다. 이는 Cloudera Manager(이하 CM)에서 관리하는 모든 노드의 모든 프로세스에 대해 횡단적으로 검색을 수행할 수 있는 좋은 방법이므로 이 게시물에서 소개하고 싶습니다. 참고 문서: Logs 클러스터 문제를 해결할 때 블록이 '언제', '어떤 파일'에 연결되어 만들어지고 '어떤 데이터 노드'에 '언제... ClouderaManagerhadoop 클러스터의 로그 디렉토리 변경 의 6일째입니다. Cloudera Manager(이하 CM)에서 관리하는 클러스터의 로그는 기본적으로 모두/var/log 이하로 출력되지만 요구 사항에 따라 모든 디렉토리로 출력하고 싶을 수도 있습니다. 이 포스트에서는 변경 방법에 대해 간단히 설명합니다. 각 서비스의 설정 화면에서 '로그' 카테고리로 이동하여 변경하면 됩니다. 이는 CM의 Service Monitor 및 Host Monit... ClouderaManagerhadoop Cloudera Manager의 NameNode HA 마법사 의 4일째입니다. 아직도 HDFS는 SPOF가! 라는 쪽이 있습니다(정말 있다). NameNode의 HA는 이미 3년 이상 전에 구현되어 있으며, 프로덕션 환경에서 당연히 사용되고 있습니다. HA 구성으로의 마이그레이션은 Cloudera Manager를 사용하면 간단합니다. HA 마이그레이션 마법사는 아름답고 간단하기 때문에 여기에서 스크린 샷과 함께 절차를 소개하고 싶습니다. Clouder... ClouderaManagerhadoop 이전 기사 보기