앙케이트 데이터 집계의 주의점

이 문서는 freee 데이터에 관련된 사람들 Advent Calendar 2020 19 일째 항목입니다.

개요



freee에서 데이터 분석가를하고 있습니다.
이번은 앙케이트 데이터의 집계에 대해, 주의하는 것이 좋은 사례를 만났으므로 소개하고 싶습니다.

사례



데이터 부문에 소속된 A씨는 온라인 송년회 실시를 맡게 되었습니다. 식사는 일괄로 주문하기로 했습니다만, 어떤 요리를 준비하면 좋은가 고민의 씨입니다. 거기서, 사내에 좋아하는 음식 앙케이트가 있었으므로 이용하기로 했습니다.



데이터 부서와 다른 멤버의 스시를 비교하면 43.8%와 38.8%에서 5점 차이가 있습니다. A씨는 “아무래도 데이터 부문은 다른 멤버보다 스시를 좋아하는 것 같다”고 결론지어 스시를 주문하는 것이었습니다.

(※실제의 사례는 스시와는 관계 없습니다.업무상의 의사 결정을 상기와 같은 앙케이트 결과로 생각하고 있던 예를 바탕으로 하고 있습니다.)

문제점



샘플 크기가 작습니까? 그런 이야기가 아닙니다. 구체적인 설문지 표를 살펴 보겠습니다.

그래, 이쪽, 라디오 버튼이 아니라 체크 박스입니다. 즉, 한 사용자가 여러 대답했을 수 있습니다. 그것이 왜 문제인가 하면, 이 데이터를 앞의 원 그래프로 나타내고 데이터 부문과 그 이외로 비교하면, 무엇을 비교하고 있는지 잘 모르기 때문입니다.
좀 더 구체적으로 말하면, 예를 들어, 만약 데이터 부문이 그 이외의 멤버에 비해라면에 대량의 체크를 넣었을 경우, 같은 비율로 스시에 체크가 들어가도, 데이터 부문의 스시에 체크한 비율 가 작아집니다.

해결책



그렇다면 단순히 비교할 수 없으면 끝입니까?

발상을 전환해 집계의 방법을 바꾸어 봅시다. 다음과 같은 설문 조사였다고 가정하고 다시 집계합니다. (이 변환은 이전 설문 결과가 있으면 가능합니다.)



이와 같이 1항목씩 「예」에 체크가 들어 있는지의 여부로 「체크」또는 「미체크」로 분류하면, 각각의 항목의 체크가 독립하고 있다고 하는 전제에 있어서, 예를 들면 「스시를 체크한 사람의 비율에 차이가 있는지 없는가?의 검정에는 반입할 수 있습니다.
그리고는, 마음 놓지 않고 카이 제곱 검정이나 피셔의 정확 확률 검정(샘플 사이즈가 작은 경우)등을 실시해 유의차가 있는지 확인합시다.

요약


  • 처음에는 여러 답변 OK 설문지에서 답변 비율을 내는 것을 권장하지 않습니다
  • 또한 샘플의 비율을 비교하는 것은 위험하기 때문에 중지하십시오.
  • 모두 초밥을 좋아합니다
  • 좋은 웹페이지 즐겨찾기