빅데이터 프로젝트/데이터엔지니어
- DATA의 정의
- 이론을 세우는 데 기초가 되는 사실, 또는 바탕이 되는 자료
- 관찰이나 실험, 조사로 얻은 사실이나 자료
- 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 자료
- 자료를 가공해 얻는 것이 정보- 우리는 수많은 데이터를 가공하고 추출하고 저장하여, 이를 통해 정보를 도출
- DATA의 성장
- yottabyte
(출처: 위키백과)
- 빅데이터란?
1) 정의
- 일반적인 db sw가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
- 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
- 데이터 폭증, 즉 기존 데이터에 비해 양이나 종류가 턱없이 커서, 기존 방법으로는 도저희 수집, 저장, 검색, 분석 등이 어려운 데이터를 총칭해서 일컫는 용어
2) 3V - 크기(volume), 다양성(variety), 속도(velocity)
- Data Engineering
1) 데이터 처리 과정
2) Data Engineer가 하는 일
- 기본적인 데이터 수집, 가공, 저장 (전처리)
- what, why
- where
- How ex) crawler, 쿼리 작성
- When ex) 배치 프로그램 만들기, 주기적으로 작동하는 쉘스크립트
- Data Pipeline 설계 및 구축(= 분석 환경 support)
- 데이터가 문제 없이 자연스럽게 흘러가는 조직을 구성하는 일
- 구축을 위한 스트림 처리 기술(Kafka 등),
분산처리 기술(Hadoop, Spark 등)
- 서비스 or 프로젝트 성격에 따라 다양한 플랫폼을 구성할 수 있음
- 어떤 방식이냐에 따라 성능, 안정성, 확장성 등이 결정됨
- 분석가가 분석을 위해 필요로 하는 환경을 구성할 수 있음
- DevOps에 필요한 개발
- 운영, 개선, 최적화
- Communication
- NoSQL - MongoDB, HBase, Redis 등
- Hadoop Ecosystem
Author And Source
이 문제에 관하여(빅데이터 프로젝트/데이터엔지니어), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@erdosnumber0/빅데이터-프로젝트데이터엔지니어저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)