Tableau로 데이터를 가져올 때의 주의 사항
3119 단어 Tableau
소개
Tableau는 빅데이터를 가시화할 때 쉽게 수표나 그래프를 작성·가시화할 수 있다
편리한 도구입니다.
그런 Tableau에 빅 데이터를 받아들여 가시화하는 것을 자주 실시하고 있습니다만,
데이터를 캡처할 때 주의하지 않으면 모든 데이터가 캡처되지 않을 수 있습니다.
특히 수십만, 수백만 건의 데이터를 다루는 경우 데이터가 제대로 캡처되지 않음
눈치채지 않고 집계해 버려, 재차 하는 일이 있으므로 주의가 필요합니다.
샘플 데이터
다음 10,000개의 텍스트 데이터를 샘플로 로드합니다.
ID
AUTHOR
TITLE
1000
다자이 오사무
인간 실격
2000년
다자이 오사무
달릴 수있는 메로스
3000
다자이 오사무
사양
0000
○○○○
××××
0000
○○○○
××××
···
···
···
C99998
미야자와 켄지
은하철도의 밤
D99999
미야자와 켄지
셀러 연주 코 "슈
E10000
미야자와 켄지
주문이 많은 음식점
○ 이번 샘플 데이터는 ID 「D99999」의 「셀로 연주 코」
"고"를 굳이 "고"+ """로 하고 있습니다.
파일 로드
Tableau를 열고 "텍스트 파일"에서 파일을 읽고 그대로 시트로 가져온 값을
확인해 보겠습니다.
두 가지 이상한 점
그러면, 아래의 2점이 이상하다는 것을 깨닫습니다.
다음 10,000개의 텍스트 데이터를 샘플로 로드합니다.
ID
AUTHOR
TITLE
1000
다자이 오사무
인간 실격
2000년
다자이 오사무
달릴 수있는 메로스
3000
다자이 오사무
사양
0000
○○○○
××××
0000
○○○○
××××
···
···
···
C99998
미야자와 켄지
은하철도의 밤
D99999
미야자와 켄지
셀러 연주 코 "슈
E10000
미야자와 켄지
주문이 많은 음식점
○ 이번 샘플 데이터는 ID 「D99999」의 「셀로 연주 코」
"고"를 굳이 "고"+ """로 하고 있습니다.
파일 로드
Tableau를 열고 "텍스트 파일"에서 파일을 읽고 그대로 시트로 가져온 값을
확인해 보겠습니다.
두 가지 이상한 점
그러면, 아래의 2점이 이상하다는 것을 깨닫습니다.
그러면, 아래의 2점이 이상하다는 것을 깨닫습니다.
첫 번째: 데이터 형식에 오류가 있음
Tableau는 처음 수백 개의 레코드로 유형을 자동으로 결정하기 때문에,
값에 숫자와 문자열이 혼합되어 처음에 숫자만이 늘어서 있는 열은 특히 주의가 필요합니다.
○ 데이터 소스 시트로 돌아가서 아래의 빨간색 프레임의 숫자 형 "#"을 문자열 형 "Abc"로 변경하여
정상적으로 가져올 수 있습니다.
이것으로 ID열은 무사히 받아들일 수 있었습니다.
2점째:텍스트 수식자에 잘못이 있다
Tableau는 로드할 값의 한정자가 기본적으로 '자동'으로 설정됩니다.
"자동"의 경우, 값이 """(더블 따옴표)로 둘러싸여 있다고 인식되어 버리는 것 같습니다.
그 때문에, 샘플로 준비한 「셀로 연주의 코"슈」의 「코」」이후의 행이 읽히지 않았습니다.
이것은 좀처럼 눈치 채기 어렵기 때문에 간과하기 쉽습니다.
○ 데이터 소스 시트로 돌아가서 "텍스트 파일 속성"에서 텍스트 한정자를 "없음"으로
변경하는 것으로 정상적으로 가져올 수 있습니다.
이제 10,000건의 데이터를 모두 가져올 수 있었습니다! !
결론
Tableau는 앞서 언급했듯이 빅 데이터를 시각화하는 데 매우 유용한 도구입니다.
설정도 자동으로 여러가지 해주기 때문에 편리합니다만, 툴을 제대로 사용하기 위해서는,
캡처하는 데이터에는 어떤 값이 들어 있는지,
캡처 한 값의 유형은 어떻게해야하는지 (계산에 사용할지 표시 값인지) 등
자신이 취급하고 있는 데이터를 제대로 이해하고 사용하는 것이 중요하다고 생각합니다.
Reference
이 문제에 관하여(Tableau로 데이터를 가져올 때의 주의 사항), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/ryota_i/items/def1c66e22540a746131
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
Reference
이 문제에 관하여(Tableau로 데이터를 가져올 때의 주의 사항), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/ryota_i/items/def1c66e22540a746131텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)