bigdata - 훌륭한 개발자 블로그

언어 - Chord diagram 그리기

이 팁에서는 데이터 간의 상관 관계를 시각화하는 방법 중 하나 인 Chord diagram을 그리는 방법을 소개합니다. 그리려면 "chorddiag"패키지를 사용합니다. 다음 데이터를 파일 이름 "yamate-line.txt"로 작업 디렉토리 아래에 저장합니다. 데이터는 야마노테 선 역 사이의 소요 시간입니다. 샘플 데이터 ▼ 샘플 스크립트...

분석Rbigdatastatistics

언어 - 풍부한 바 차트 "pirateplot"

버차트뿐이라면 뭔가 부족하다고 하는 경우에 사용해 보고 싶은 플롯 함수 "pirateplot"를 소개합니다. "pirateplot"에 의한 그리기에서는 데이터의 분포를 바차트상에 그릴 수가 있습니다. 이 팁에서 사용하는 시나리오는 IT 프로젝트에서 프로젝트 관리자의 수준별 평균 입찰가의 변화를 표현합니다. 소스 데이터의 형식은 다음과 같습니다. 이 형식의 데이터는 파일 이름 "data.txt...

분석Rbigdatastatistics

언어 - 데이터 검증 패키지 "validate"

validate 패키지를 사용하면 데이터 검증 작업의 효율성을 향상시킬 수 있습니다. 예를 들어, 지정한 규칙에 따라 규칙을 통과했는지, 평가에 실패했는지 등을 확인할 수 있습니다. ▼ 샘플 스크립트 위의 샘플 스크립트에서 summary() 는 check_that() 실행 결과를 보여줍니다. 예를 들어, 규칙 이름 "V2"는 전체 Sepal.Width 열의 평균값이 0보다 큰지 확인합니다. ...

분석Rbigdatastatistics

언어 - tf-idf로 문서의 특징 추출

비슷한 문서가 몇 가지 있고, 그 차이가 무엇인지를 대략적으로 파악하고 싶다고 하는 상황은 없습니까? 예를 들어, 어떤 제품의 신기능을 소개한 자료가 있어, 옛날과 지금의 트렌드에 어떤 변화가 있는지를 대략적으로 파악하고 싶다는, 같은 상황입니다. 이 경우 문서의 특징을 추출하는 방법 중 하나인 tf-idf(Term Frequency - Inverse Document Frequency)를 이...

분석Rbigdatastatistics

언어 - 텍스트의 부정적인 정도를 분석합니다.

어떤 텍스트 파일에 어떤 특성이 있습니까? 그 텍스트 파일에, 네거티브인 발언이 많은지, 아니면, 긍정적인 발언이 많은 것인가의 경향을 흩어지게 파악하려면, 네거티브 포지션도를 분석하는 것이 좋습니다. 이 팁에서는 특정 조직의 주간 보고서를 사용하여 내용에 어떤 특성이 있는지 분석합니다. 순서로서는, ①위클리 리포트를 RMeCab로 형태소 해석 후, ②단어 감정 극성표(주1)로부터 스코어를 ...

분석Rbigdatastatistics

언어 - 디버깅 및 병목 현상을 발견하는 기술

R에는 디버깅과 병목 현상을 찾는 기술도 있습니다. 함수 내에서 디버깅을 활성화하려면 browser() 함수를 사용합니다. 다음의 예는, 인수로 주어진 수치에 대해서, 화차적상을 계산하는 유저 함수에, browser() 함수를 사용한 샘플 스크립트입니다. 디버그 실행의 개시 조건으로서, 「첫 번째의 인수가 8 이상」이라고 하는 것을 browser() 함수에 지정하고 있습니다. 실행 결과 예 ...

분석Rbigdatastatistics

공인 Big Data 공부기 - 4

여러분, 안녕하세요, 에이 링구입니다. 요 전날 AWS 공인 빅데이터 전문 지식 시험을 받았습니다. 그리고 결과는 불행히도 실패했습니다. 모처럼이므로 이번에는 이 자리를 빌려 되돌아보고 싶습니다. 우선 득점(%)은 다음과 같습니다. 씨는 AWS 자격 10관의 분이므로, 기본적으로 레벨이 높은 분입니다만, 합격한다면 이것 정도의 점수가 필요할까라고 생각합니다. Collection과 Storag...

데이터 과학bigdataAWS

공인 Big Data 공부 - 1

여러분, 안녕하세요, 에이 링구입니다. 데이터 분석과 기계 학습 주위의 일을하고 있습니다. 직장에서 Amazon Redshift나 Amazon S3를 접할 기회가 많습니다만, 최근 업계에서는 Amazon SageMaker 등 AWS 주변의 데이터 기반이나 기계 학습 기반의 이야기를 듣는 것이 많아졌습니다. 또한 요 전날 에 참가하여 데이터 파이프 라인 주위를 듣고 다양한 데이터 처리 기반에 ...

데이터 과학bigdataAWS

Amazon Athena를 신속하게 시도했습니다.

S3에 배치된 데이터를 SQL과 같은 명령으로 검색할 수 있다는 것. 그래서 1TB의 데이터 스캔당 5달러가 걸린 것 같습니다. You are charged standard S3 rates for storage, requests, and data transfer. By default, query results are stored in an S3 bucket of your choice and ...

AthenaS3bigdataAWS

sparklyr로 Exploratory에서 Spark에 연결해보십시오 (dplyr)

은 SQL에서 Spark에 SQL 쿼리를 던져 데이터 분석을 하는 예를 설명했지만 이번에는 dplyr 쿼리를 사용한 예를 소개합니다. Spark에 미국 항공사의 지연 데이터가 있다면 사실은 다음과 같이 dplyr 쿼리를 던져 Spark에서 데이터를 가져올 수 있습니다. Exploratory의 유저, 혹은 지금의 R의 유저라면 dplyr의 문법(데이터 랭글링의 글래머라고 말해지고 있는 것)에 ...

RDataVisualizationbigdata스파크Exploratory

ZoomData 2.3 온프레 버전 평가판 설치

이번에는 ZoomData를 온프레 환경에 설치해 보겠습니다. PoC로서 ESXi에 다음과 같은 가상 환경을 준비했습니다. 종류 버전 OS CentOS 7 Mem 64GB 디스크 100GB 다행히 메모리는 윤택하게 잡혔습니다만 실제로는 8GB정도에서도 움직이려면 움직였습니다. 하지만 역시 데이터량에 따라서는 동작이 극적으로 무거워졌습니다. 실시간 처리의 성격상 메모리는 많이 초과한 적이 없습니...

스파크Zoomdatabigdata

Apache Pinot 및 Presto 빌드

그러나 중 일부는 실제로 누락되어 인터넷에서 정보를 찾고 마침내 몇 가지 실험을 할 수 있었습니다. 위의 내용은 피노를 구성하기 위해 필요한 4가지 기본 서비스이며, 공식 문서와 동일한 부분은 대부분 생략하고 제가 수정한 부분만 나열하였습니다. 주요 변경 사항은 세 가지 Pinot 서비스의 ports 및 environment로, Prometheus에서 Pinot의 메트릭을 사용할 수 있도록 ...

tutorialbigdataeventdrivenprogramming

Hudi 사용 시 실용적인 비즈니스 문제 해결: LakeSoul은 null 필드 비재정의 의미 체계를 지원합니다.

최근 R&D 팀은 사용자가 Hudi를 사용하여 실용적인 비즈니스 문제를 해결하도록 도왔습니다. 비즈니스 프로세스는 업스트림 시스템이 온라인 DB 테이블에서 원본 데이터를 JSON 형식으로 추출하여 Kafka에 쓰는 것입니다. 데이터는 Hudi를 사용하여 업데이트 및 집계되고 분석을 위해 다운스트림 데이터베이스로 전송됩니다. 후속 데이터 업데이트에서는 업데이트 없이 누락된 필드 값 대신 최신 ...

bigdatadatabaseopensourcedataengineering

사용 가이드:원스톱 AI 개발 및 생산 플랫폼 AlphaIDE로 지능형 데이터 플랫폼을 빠르게 배포

Alpha IDE: 링크를 클릭합니다. 이메일로 등록할 수 있습니다. 등록 후 이메일로 확인 링크가 전송됩니다. 확인 링크 클릭 후 방금 등록한 이메일 주소와 비밀번호로 로그인이 가능합니다. 로그인 후 평가판 IDE 환경을 입력하려면 클릭하십시오. Kubeflow 초기화 페이지에서 설정 시작을 클릭합니다. 그런 다음 네임스페이스 생성 페이지에서 마침을 클릭합니다. Demo IDE 서비스 진입...

aiproductivitymachinelearningbigdata

관계형 DB(RDB)

관계형 데이터베이스는 데이터 진입점의 수집과 이들 사이의 관계에 초점을 맞춘 데이터베이스로 분류됩니다. 관계형 DB를 선택할 시기를 어떻게 알 수 있습니까? 데이터 진입점 간의 관계에 대한 지식이 있고 테이블의 데이터를 나타내는 복잡하지 않은 작업 과정이 있는 경우 RDB가 최선의 선택입니다. 이제 RDB에 대한 일반적인 아이디어를 얻었으므로 계속해서 더 깊이 파고들어 AWS RDB 리소스를...

terraformdatabaseawsbigdata

--packages 플래그를 사용하여 Amazon EMR Serverless를 실행하는 방법

이를 통해 Spark로 작업을 훨씬 쉽게 수행할 수 있습니다. (1) 클러스터에서 수동으로 .jar 파일을 빌드하고 삽입하거나 (2) 종속성을 --packages 플래그에 전달하여 Spark가 maven에서 자동으로 다운로드할 수 있도록 합니다. EMR 서버리스의 릴리스 6.7.0부터 이 플래그를 사용할 수 있습니다. Amazon EMR Serverless는 처음에는 VPC 외부에 있으므로 ...

emrserverlesssparkawsbigdata

Spark 팁: 컴퓨팅 집약적인 작업을 위해 병합 후 셔플 파티션 비활성화

작은 입력에서 UDAF(사용자 정의 집계 함수) 내에서 컴퓨팅 집약적인 작업을 수행할 때 spark.sql.adaptive.coalescePartitions.enabled를 false로 설정합니다. Apache Spark에는 런타임 통계를 기반으로 최적화를 수행하고 3.2.0부터 기본적으로 활성화되는 이라는 멋진 기능이 있습니다. 이러한 최적화 중 하나는 동적 셔플 파티션 번호 튜닝을 위한 ...

performancesparkmachinelearningbigdata

빅 데이터 프로젝트 테스트에 필요한 최고의 기술

빅 데이터/AI 관련 프로젝트를 테스트하는 방법이 궁금한 QA/테스터/자동화 엔지니어이신가요? 테스트 기본 사항을 아는 것 외에도 빅 데이터 프로젝트를 테스트하면 기술이 향상됩니다. 이전 빅 데이터 프로젝트에서 많은 도움이 되었던 기술 조합을 여기에 나열했습니다. SELECT * FROM ____ WHERE <column_name> = _____;이것은 기본입니다. 매우 큰 데이터 세트에서 ...

testingbigdata

세션이 있는 여러 쿼리에 대한 BigQuery 트랜잭션

이제 하나 이상의 테이블에 대해 변경 작업을 수행한 다음 사이에 스크립트를 래핑하여 결과를 원자적으로 커밋하거나 롤백할 수 있습니다. 그러나 트랜잭션에는 제한이 있습니다. 이것은 대부분의 경우 문제가 되지 않지만 트랜잭션에 포함된 스크립트가 너무 복잡해지거나 쿼리 매개변수가 너무 많거나 다른 스크립트가 중단되는 경우 문제가 될 수 있습니다 . 예를 들어 쿼리 스크립트가 요청 페이로드에서 자동...

pythondatabasebigdatagooglecloud

Pyspark를 통해 ETL을 수행하는 동적 방법

각 테이블에 대해 ETL을 별도로 작성하는 대신 데이터베이스(MySQL,PostgreSQL,SQL-Server) 및 Pyspark를 사용하여 동적으로 수행하는 기술을 가질 수 있습니다. 더 나은 이해를 위해 몇 가지 단계를 따라 코드를 작성합니다. 1 단계 TEST_DWH라는 이름을 가진 데이터베이스(SQL-SERVER를 사용하고 있습니다)에 두 개의 테이블을 만듭니다. ETL의 마스터 데이...

pythonbigdataetlpyspark

WSL에 HIVE 설치

Windows Linux 하위 시스템에 Apache Hive 설치 Ubuntu 명령줄에서 wget 명령과 다운로드 경로를 차례로 사용하여 압축된 Hive 파일을 다운로드합니다. 다운로드 프로세스가 완료되면 압축된 Hive 패키지의 압축을 풉니다. Hive 환경 변수 구성(~/.bashrc) $HIVE_HOME 환경 변수는 클라이언트 셸을 apache-hive-3.1.2-bin 디렉터리로 지정...

bigdatahadoophive

Windows에서 Docker Desktop을 사용하여 몇 분 만에 Hadoop 플레이그라운드 생성

학교의 컴퓨팅 리소스에 연결하는 것은 때때로 어려울 수 있습니다. 그 결과 몇 가지 실험을 빠르게 수행할 수 있도록 Windows 노트북에서 Docker로 로컬 Hadoop 환경을 설정하는 쉬운 방법을 찾았습니다. Docker를 사용하면 특정 소프트웨어(이 게시물의 Hadoop 포함)에 대한 복잡한 설치 절차를 거치지 않아도 되며 디스크 공간을 확보해야 하는 경우 명확하게 삭제할 수 있습니다...

bigdatajavacodenewbiedocker

CDC의 빠른 사용: Lakesoul의 새로운 데모를 통해 환경을 보다 쉽게 설정할 수 있습니다.

변경 데이터 캡처(CDC)는 데이터베이스에서 데이터 변경 사항을 캡처하는 데 사용되는 데이터베이스 지향 기술로 데이터 동기화, 데이터 배포 및 데이터 수집에 적용됩니다. [Lakesoul]( CDC 기술은 데이터 일관성 및 실시간을 보장하기 위해 소비 로그를 구현할 수 있는 로그 기반 CDC 유형에 속합니다. Mysql 및 Oracle과 같은 관계형 데이터베이스의 추가, 삭제 및 변경 작업은...

bigdatasparkopensourcedataengineering

DASK #2 | array, df, Xarray

1. DASK arrays 1-1) NUMPY vs DASK Arrays dask array는 chunk size를 확실하게 지정해 주어야 함 dask array를 compute하면 numpy array로 값 나옴 dask array method는 numpy의 method와 비슷하게 사용됨 DASK Chunking Array (source : ) Numpy vs DASK Array 1-2) ...

dfbigdataXArraydasknumpypandasarrayXArray

전국 아파트 분양가 분석하기 (1)

✔ 서버가 터져서 오늘은 깃허브에 올리지 못했다~! 평당분양가격 구하기. 평당분양가격 = 분양가격 * 3.3 ➕ 데이터 shape도 확인할 수 있다. head나 tail을 사용하거나, iloc을 이용해서 원하는 부분을 가져올 수 있다. ✔ 5-1. object type data Array : 배열의 모든 요소는 String 이다. Series : 시리즈의 모든 요소는 본인들의 타입을 가지고 ...

matplotlibpythonbigdatapandasnumpyData AnalysisData Analysis

building my data warehouse with Airflow on GCP.

google colud cli 환경 google cloud 계정 I94 Immigration Data: This data comes from the U.S. National Tourism and Trade Office. I94 Data dictionary: Dictionary accompanies the I94 Immigration Data World Temperature Data: This...

bigdataBigQuerydataengineerairflowetlBigQuery

[Python] FIFA 데이터 EDA

2. 데이터 불러오기 18278명의 선수와 104개의 컬럼이 있다는 것을 확인할 수 있다. ID 부터 시작해서 포지션별 능력치까지 총 104개의 컬럼이 있는것을 확인할 수 있다. overall : 선수의 전체적인 능력치 value_eur : 선수가치 wage_eur : 선수임금 선수들의 전체적인 능력치를 나타내는 OVERALL을 기준으로 선수들의 분포를 확인하면 6~70 에 대부분의 선수들이...

pythonbigdataEDAanacondaEDA

Core tana Intelligence Suite 구축(4차) - Azure Data Lake Analytics를 사용하여 빅데이터 조회 시도

기존의 데이터 분석 세계에서 일반적으로 데이터 창고 등 가공(정의 모델) 상태의 데이터를 이용하여 입방체 등을 구축하는 절차를 이용하여 데이터 분석을 한다.최근 몇 년 동안 빅데이터를 처리하기 시작하면서 반드시 지정된 모델로 데이터 창고에 저축하는 방법이 아니라 매번 원시 데이터에서 좋아하는 데이터를 추출하는 방법도 생겼다.마이크로소프트 Azure는 Azure Data Lake, Azure ...

AzureDataLakeAzurebigdataCortanaIntelligenceSuiteAzureStorage

언어 - Chord diagram 그리기

언어 - 풍부한 바 차트 "pirateplot"

언어 - 데이터 검증 패키지 "validate"

언어 - tf-idf로 문서의 특징 추출

언어 - 텍스트의 부정적인 정도를 분석합니다.

언어 - 디버깅 및 병목 현상을 발견하는 기술

공인 Big Data 공부기 - 4

공인 Big Data 공부 - 1

Amazon Athena를 신속하게 시도했습니다.

sparklyr로 Exploratory에서 Spark에 연결해보십시오 (dplyr)

ZoomData 2.3 온프레 버전 평가판 설치

Apache Pinot 및 Presto 빌드

Hudi 사용 시 실용적인 비즈니스 문제 해결: LakeSoul은 null 필드 비재정의 의미 체계를 지원합니다.

사용 가이드:원스톱 AI 개발 및 생산 플랫폼 AlphaIDE로 지능형 데이터 플랫폼을 빠르게 배포

관계형 DB(RDB)

--packages 플래그를 사용하여 Amazon EMR Serverless를 실행하는 방법

Spark 팁: 컴퓨팅 집약적인 작업을 위해 병합 후 셔플 파티션 비활성화

빅 데이터 프로젝트 테스트에 필요한 최고의 기술

세션이 있는 여러 쿼리에 대한 BigQuery 트랜잭션

Pyspark를 통해 ETL을 수행하는 동적 방법

WSL에 HIVE 설치

Windows에서 Docker Desktop을 사용하여 몇 분 만에 Hadoop 플레이그라운드 생성

CDC의 빠른 사용: Lakesoul의 새로운 데모를 통해 환경을 보다 쉽게 ​​설정할 수 있습니다.

DASK #2 | array, df, Xarray

전국 아파트 분양가 분석하기 (1)

building my data warehouse with Airflow on GCP.

[Python] FIFA 데이터 EDA

Core tana Intelligence Suite 구축(4차) - Azure Data Lake Analytics를 사용하여 빅데이터 조회 시도

CDC의 빠른 사용: Lakesoul의 새로운 데모를 통해 환경을 보다 쉽게 설정할 수 있습니다.