프로그램을 한 줄 쓰지 않고 문서 단어 행렬을 만드는 방법

  • 텍스트 준비
  • ChaKi.NET ( htp://그래서 R세후레. jp/p 로지ぇcts/짱/레아세 s/ ) 설치
  • MeCab (htps : // 여기. 오, ぇ. 이 m/p/메카 b/) 및 형태소 분석 사전도
  • 관련 분석을 원한다면 CaboCha (htps : // 여기. 오, ぇ. 코 m/p/호박/)도
  • 각각 사전과 모델을
    같은 문자 코드로 설치하십시오

  • ChaKi.NET용 DB 만들기
  • [도구]→[Text to Corpus]에서 Text to Corpus를 시작하여 텍스트 파일을 DB화

  • ChaKi.NET 패널이 아닌 창에 텍스트 파일을 드래그 앤 드롭하여도 마찬가지입니다.

  • 문분할 처리 등을 필요한 정보로 수정하여 [실행]

  • Search Conditions 패널의 코퍼스 탭의 선택한 코퍼스에 작성한 DB 추가
  • 추가 버튼을 누른 후 여러 문서 DB 선택


  • Search Conditions 패널에서 태그 검색 탭을 클릭합니다.
    - 품사로 제한하지 않는 경우 아무 것도 선택하지 않아도됩니다.

  • 명사만으로 문서 단어 행렬을 작성하는 경우에는 PartOfSpeech 를 "^명사"로 한다


  • Command 패널에서 워드리스트 시작을 클릭합니다.
  • 결과 표시(기본적으로 표층형으로 표시)

  • 집계할 단위 변경
  • Base Lexeme 배포

  • Part of Speech 배포

  • Surface 접기



  • 생긴 문서 단어 행렬은 [파일]→[Excel/CSV로 내보내기]

  • 나머지는 Excel에서 정형하여 R등의 소프트웨어로부터 읽어내면 된다.
  • 좋은 웹페이지 즐겨찾기