자유 기술 설문지의 텍스트 분석 Part2: 자주 함께 사용하는 단어 조합의 통계와 가시화


자유 기술 설문지의 텍스트 분석 Part2: 자주 함께 사용하는 단어 조합의 통계와 가시화
감사합니다!ExploratoryIkuya.
저번 설문지의 텍스트를 자유롭게 기술하기 위해 문장을 단어화하고 워드 클라우드로 시각화하는 방법을 소개했다.
  • Part1: 문장의 단어화와 단어 구름-Link
  • 이 단어 구름은 어떤 단어가 많이 생겼는지 직관적으로 이해하기에 적합하지만 다른 한편, 각 단어가 어떤 상하문에서 사용되는지 이해하기 어려운 경우도 있다.
    그렇다면 오늘은 글에서 사용된 단어의 조합을 정리하고 자유롭게 기술한 설문지 분석 방법을 소개한다.
    자유롭게 기술된 텍스트를 분석하려면
    이번 사용Exploratory은 아래 3단계에 따라 설명한다.
  • 문장을 단어화
  • 계수 단어의 조합
  • 시각화된 단어의 조합
  • 1. 문장을 단어화

    이번에 우리는 상술한 설문지 데이터를 이용하여 이를 단어화한 데이터를 활용할 것이다.(문장의 단어화 방법에 관하여 참고하십시오여기.

    2. 단어의 조합을 계산한다
    이번 데이터는 문장이 이미 단어화되었기 때문에 바로 단어의 조합을 통계한다.'token' 의 열 제목 메뉴에서 '텍스트 데이터 처리 (UI)' 와 '계수 텍스트 쌍' 을 선택하십시오.

    그런 다음 [텍스트 쌍 카운트] 대화 상자가 표시되고 직접 실행됩니다.
    또한 문서 ID의 열에서 각 기사마다 고유한 ID를 선택합니다.이번에는 모든 글에서 독특한 ID인 '문서 id' 를 선택했기 때문에 기본값으로 실행합니다.

    각 단어의 조합 횟수를 열로 만들 수 있다.

    그러나 안타깝게도 단어가 서로 다른 열로 나뉘어져 있어 가시화하기 어렵다.시각화에 편리하도록 우리는 한 쌍의 단어를 일렬로 정리할 것이다.
    첫 번째 단어'token.x'열과 두 번째 단어'token.y'열을 선택한 후 열 제목 메뉴에서'여러 열 연결(Unite)'을 선택합니다.

    그런 다음 여러 열 연결 대화 상자가 표시되므로 새 열 이름을 text pair로 실행합니다.

    나는 단어의 한 쌍을 순조롭게 일렬로 정리했다.

    3. 단어 조합 시각화
    마지막으로 단어의 출현 수량을 가시화한다.차트 보기로 이동하면 차트 유형은 "막대", X축은 "text pair", Y축은 "value"를 선택합니다.

    그런 다음 Y축의 합계 함수에서 합계(sum)를 선택합니다.

    마지막으로 정렬에서 Y1 축을 선택합니다.

    이렇게 되면 단어 쌍의 출현 횟수가 많은 순서에 따라 가시화되었다.

    하지만 지금 이러면 단어가 보기 흉해진다.그리고 한 쌍은 한 번만 나오는 단어도 많아졌다.한 번 나온 커플은 우연히 사용한 조합일 가능성이 커 이번에는 세 번 이상 나온 단어의 조합에 집중했다.
    방금 차트의 X축 메뉴에서 값 표시 한계를 선택합니다.

    이어서 입력 유형은'조건'이고 기초 열은'value'이며 연산자는'이상'이고 값은'3'이다. 그리고 응용한다.

    그러자 3차례 이상 등장한 단어 조합이'시간 분배','더 많은 사례','시위 행진'등의 조합으로 많이 표현됐다.

    이렇게 단어의 조합을 집계해 한층 가시화하면 워크숍'시간 분배'를 개선하고'시위 행진'을 늘리는 사이트를 얻을 수 있다.
    자기 데이터로 실제로 해볼게요.
    Exploratory 30일 동안 무료로 체험할 수 있다.실제 자신의 데이터를 사용해 보고 싶으신 분들은 아래부터 무료 체험을 하세요!

    좋은 웹페이지 즐겨찾기