데이터 과학에서의 데이터 저장 방법을 너는 마땅히 알아야 한다

사진 작성자Art Wall - KittenprintUnsplash

소개하다.


우리는 비범한 시대에 살고 있으며, 과학 기술은 모든 것의 일부분이다.기술을 이렇게 강력하고 가치 있게 하는 요소 중 하나는 데이터다.인터넷상에서 매일 대량의 데이터가 발생한다.Instagram에서 생성된 데이터만 고려:
  • 인스타그램은 매일 5억 편의 사연을 올린다
  • 매일 35억 명이 좋아한다
  • 2016년까지 하루 9천500만건의 게시물을 올리면서 인스타그램 사용량은 2016∼2018년 두 배로 늘었다.
  • 이런 대량의 데이터(크기로 인해 빅데이터라고 부른다)는 전통 기술을 사용하거나 한 기계에 저장할 수 없다.빅데이터를 저장하고 검색하려면 서로 연결된 여러 대의 기계가 필요하다.본고는 빅데이터를 저장하는 서로 다른 기술과 그 장단점과 용례를 중점적으로 소개한다.

    데이터 형식


    서로 다른 유형의 데이터 저장을 깊이 연구하기 전에 우리는 먼저 데이터의 유형을 보아야 한다.

    구조화된 데이터


    Structured data는 excel 전자 표에 쉽게 저장할 수 있는 모든 데이터입니다. 예를 들어 사용자 이름, 성씨, 은행의 상세한 정보 등입니다. 이런 데이터는 일반적으로 정의된 길이와 형식을 가지고 있습니다.인터넷상에서 구조화된 데이터는 사람과 기계에 의해 생성된다.이러한 데이터의 일부 소스는 다음과 같습니다.
    인류의
  • 양식에 귀하의 상세한 정보를 기입하십시오
  • 온라인으로 동영상을 볼 때의 행동.예를 들어 이 사이트는 당신이 마지막으로 남긴 동영상의 시간 스탬프/에피소드를 추적합니다.
  • 기계.
  • GPS 위치, 배터리 수명 등 사물인터넷 기기나 스마트폰에서 나온 센서 데이터
  • 애플리케이션 로그는 엔지니어가 플랫폼에 있는 오류나 시스템의 생산성을 파악하도록 도와줍니다.
  • 구조화된 데이터는 인터넷상의 모든 데이터의 약 20%를 차지하기 때문에 일반적으로 의미 있는 견해를 얻기 쉽다.

    비정형 데이터


    Unstructured data 미리 정의된 형식이나 모델이 없습니다.이런 데이터의 두 대상 사이에는 통상적으로 비슷한 점이 많지 않다.비구조화된 데이터의 전형적인 예는 영상, 이미지, 오디오 등이다. 만약 두 개의 오디오 파일을 주면, 작가의 목소리 차이만으로도 두 파일 사이에 상당한 차이가 생길 수 있다.구조화된 데이터와 마찬가지로 비구조화된 데이터도 인력과 기계의 출처가 있다.여기에는 다음이 포함됩니다.
    인류의
  • 인스타그램
  • 에 그 아침 햇살 사진 올리기
  • 웹툰 영상으로 왓츠앱 상태 업데이트
  • 소셜미디어 플랫폼의 스트리밍 생중계
  • 마지막으로 내보낸 PDF
  • 기계.
  • 위성이 촬영한 지구 영상
  • 비구조화된 데이터를 분석하는 것은 더욱 복잡하기 때문에 보통 기계 학습 모델을 만들어야 한다.이러한 데이터는 인터넷 데이터의 약 80%를 차지하며 저장과 유지보수가 더욱 쉬워졌다.

                        Image Source

    반구조화 데이터


    나는 이런 유형의 데이터를 상술한 두 가지 유형의 혼합으로 보는 것을 좋아한다.그것은 통상적으로 구조화 부품과 비구조화 부품을 포함한다.
    반구조화된 데이터의 일부 예는 전자메일과word 문서이다.텍스트(구조화된 데이터)와 미디어 파일(비구조화된 데이터)을 포함하고 있음을 주의하십시오.NosQL DBs에 저장된 데이터를 생각해 보자. 그 중 하나는 일정한 필드가 있지만, 다음은 없다. 이것은 반구조화된 데이터 집합이다.e-메일에는 받는 사람, 보낸 사람, 참조 및 비밀 문서 참조 필드가 있으며 구조화된 데이터일 수도 있지만 이미지가 포함될 수도 있습니다.

    데이터 저장 방법


    현재 우리는 이미 서로 다른 유형의 데이터에 익숙해져서, 우리는 이러한 데이터를 저장하는 각종 방법을 볼 수 있다.

    Image Source

    파일 저장소


    In this type of storage 데이터는 디스크에 데이터로 저장됩니다.접근할 사람은 디스크에 있는 정보의 파일 경로를 알아야 합니다.파일 스토리지의 기타 기능은 다음과 같습니다.
  • 파일은 동시에 읽고 쓸 수 있습니다.
  • 동일한 네트워크의 사용자만 액세스할 수 있습니다.
  • 데이터를 복제하는 것은 쉽지 않으며 기계가 고장나면 데이터를 잃어버릴 수 있습니다.
  • 블록 저장소


    블록 저장소에서 데이터는 연속 블록(블록)으로 저장됩니다.다양한 네트워크 사이에서 쉽게 네트워크를 확장할 수 있으므로 디스크에 저장된 위치를 알 필요 없이 액세스할 수 있습니다.관계 데이터베이스는 RDM의 예로 구조화된 데이터의 가장 좋은 저장 유형이 된다.
    기타 특징은 다음과 같습니다.
    확장성이 뛰어납니다. 네트워크에 더 많은 노드를 추가하여 블록 저장소의 크기를 늘려 쉽게 확장할 수 있습니다.
    간편한 복제: 대부분의 블록 스토리지 서비스는 백업/복제가 용이합니다.따라서 기계가 고장난 상황에서도 귀하의 데이터는 완전무결합니다.
    읽기와 쓰기 속도가 매우 빨라서 디스크에 있는 데이터의 위치를 알 필요가 없습니다.
    데이터의 양이 증가함에 따라 블록 저장은 통상적으로 매우 비싸다.예를 들어, 이것은 대형 데이터의 원가를 매우 높게 한다.

    개체 저장소


    Object storage는 비정형 데이터를 저장하기에 가장 적합한 방법입니다.데이터는 대개 개체로 저장됩니다.
    객체는 세 가지 주요 부분으로 구성됩니다.
  • 데이터: 우리가 저장하고 싶은 이미지, 그림 등입니다.
  • 원 데이터: 이것은 이 데이터가 무엇을 대표하는지에 대한 설명일 수 있다.대부분의 대상 저장 서비스는 이 메타데이터의 내용을 검색할 수 있도록 합니다.
  • 고유 식별자: 언제든지 객체를 쉽게 검색할 수 있습니다.
  • 대부분의 서비스는 객체를 만들 때마다 객체를 세 번 복사합니다.이것은 검색 대상과 검색 데이터를 쉽게 한다.따라서 개체 스토리지는 ID를 사용하여 쉽게 액세스할 수 있으므로 비정형 데이터를 저장하기에 적합합니다.
    객체 스토리지의 이점은 다음과 같습니다.
  • 다른 유형의 스토리지
  • 보다 훨씬 저렴함
  • 기본적으로 데이터 복제
  • 풍부한 메타데이터 기능
  • 메모리는 기계와 결합하지 않기 때문에 확장하기 쉽다
  • 메타데이터 값
  • 을 사용하여 데이터를 그룹화할 수 있음

    결론


    본고에서 우리는 빅데이터 중의 서로 다른 유형의 데이터를 연구했고 빅데이터를 저장하는 주요 기술을 연구했다.나는 네가 이 문장에서 약간의 새로운 것을 배울 수 있기를 바란다.

    좋은 웹페이지 즐겨찾기