Tableau로 데이터를 가져올 때의 주의 사항

3119 단어 Tableau

소개



Tableau는 빅데이터를 가시화할 때 쉽게 수표나 그래프를 작성·가시화할 수 있다
편리한 도구입니다.

그런 Tableau에 빅 데이터를 받아들여 가시화하는 것을 자주 실시하고 있습니다만,
데이터를 캡처할 때 주의하지 않으면 모든 데이터가 캡처되지 않을 수 있습니다.

특히 수십만, 수백만 건의 데이터를 다루는 경우 데이터가 제대로 캡처되지 않음
눈치채지 않고 집계해 버려, 재차 하는 일이 있으므로 주의가 필요합니다.

샘플 데이터



다음 10,000개의 텍스트 데이터를 샘플로 로드합니다.


ID
AUTHOR
TITLE


1000
다자이 오사무
인간 실격

2000년
다자이 오사무
달릴 수있는 메로스

3000
다자이 오사무
사양

0000
○○○○
××××

0000
○○○○
××××

···
···
···

C99998
미야자와 켄지
은하철도의 밤

D99999
미야자와 켄지
셀러 연주 코 "슈

E10000
미야자와 켄지
주문이 많은 음식점


○ 이번 샘플 데이터는 ID 「D99999」의 「셀로 연주 코」
"고"를 굳이 "고"+ """로 하고 있습니다.

파일 로드



Tableau를 열고 "텍스트 파일"에서 파일을 읽고 그대로 시트로 가져온 값을
확인해 보겠습니다.



두 가지 이상한 점



그러면, 아래의 2점이 이상하다는 것을 깨닫습니다.
  • 첫 번째 포인트는 ID에 NULL 값이 있어야합니다.
  • 두 번째는 총 합계가 10,000 건이 아니라 9,999 건이어야한다



  • 첫 번째: 데이터 형식에 오류가 있음



    Tableau는 처음 수백 개의 레코드로 유형을 자동으로 결정하기 때문에,
    값에 숫자와 문자열이 혼합되어 처음에 숫자만이 늘어서 있는 열은 특히 주의가 필요합니다.

    ○ 데이터 소스 시트로 돌아가서 아래의 빨간색 프레임의 숫자 형 "#"을 문자열 형 "Abc"로 변경하여
    정상적으로 가져올 수 있습니다.


    이것으로 ID열은 무사히 받아들일 수 있었습니다.



    2점째:텍스트 수식자에 잘못이 있다



    Tableau는 로드할 값의 한정자가 기본적으로 '자동'으로 설정됩니다.
    "자동"의 경우, 값이 """(더블 따옴표)로 둘러싸여 있다고 인식되어 버리는 것 같습니다.

    그 때문에, 샘플로 준비한 「셀로 연주의 코"슈」의 「코」」이후의 행이 읽히지 않았습니다.
    이것은 좀처럼 눈치 채기 어렵기 때문에 간과하기 쉽습니다.

    ○ 데이터 소스 시트로 돌아가서 "텍스트 파일 속성"에서 텍스트 한정자를 "없음"으로
    변경하는 것으로 정상적으로 가져올 수 있습니다.


    이제 10,000건의 데이터를 모두 가져올 수 있었습니다! !



    결론



    Tableau는 앞서 언급했듯이 빅 데이터를 시각화하는 데 매우 유용한 도구입니다.
    설정도 자동으로 여러가지 해주기 때문에 편리합니다만, 툴을 제대로 사용하기 위해서는,
    캡처하는 데이터에는 어떤 값이 들어 있는지,
    캡처 한 값의 유형은 어떻게해야하는지 (계산에 사용할지 표시 값인지) 등
    자신이 취급하고 있는 데이터를 제대로 이해하고 사용하는 것이 중요하다고 생각합니다.

    좋은 웹페이지 즐겨찾기