빅데이터 프로젝트/데이터엔지니어

  1. DATA의 정의
  • 이론을 세우는 데 기초가 되는 사실, 또는 바탕이 되는 자료
  • 관찰이나 실험, 조사로 얻은 사실이나 자료
  • 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 자료
    - 자료를 가공해 얻는 것이 정보
    • 우리는 수많은 데이터를 가공하고 추출하고 저장하여, 이를 통해 정보를 도출
  1. DATA의 성장

(출처: http://bigdata.dongguk.ac.kr/lectures/DS/_book/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EA%B0%9C%EC%9A%94.html)

  • yottabyte

    (출처: 위키백과)

  1. 빅데이터란?
    1) 정의
  • 일반적인 db sw가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
  • 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
  • 데이터 폭증, 즉 기존 데이터에 비해 양이나 종류가 턱없이 커서, 기존 방법으로는 도저희 수집, 저장, 검색, 분석 등이 어려운 데이터를 총칭해서 일컫는 용어
    2) 3V
  • 크기(volume), 다양성(variety), 속도(velocity)
  1. Data Engineering
    1) 데이터 처리 과정

2) Data Engineer가 하는 일

  • 기본적인 데이터 수집, 가공, 저장 (전처리)
- what, why
- where
- How ex) crawler, 쿼리 작성
- When ex) 배치 프로그램 만들기, 주기적으로 작동하는 쉘스크립트
  • Data Pipeline 설계 및 구축(= 분석 환경 support)
- 데이터가 문제 없이 자연스럽게 흘러가는 조직을 구성하는 일
- 구축을 위한 스트림 처리 기술(Kafka 등), 
  분산처리 기술(Hadoop, Spark 등)
- 서비스 or 프로젝트 성격에 따라 다양한 플랫폼을 구성할 수 있음
- 어떤 방식이냐에 따라 성능, 안정성, 확장성 등이 결정됨
- 분석가가 분석을 위해 필요로 하는 환경을 구성할 수 있음
  • DevOps에 필요한 개발
  • 운영, 개선, 최적화
  • Communication
  • NoSQL - MongoDB, HBase, Redis 등
  • Hadoop Ecosystem

좋은 웹페이지 즐겨찾기