리눅스 커맨드를 이용한 텍스트 마이닝 【성경】

나사하라 현로 씨의 저작 「입문자의 Linux」(블루 벅스 출판)의 282 페이지에 기재되어있는 내용을
스스로 해 본다.

0. 소개



그(나사와라 현로씨)는 이전, 성경의 해석을 실시한 것 같습니다.
성경에서 가장 자주 사용되는 단어는 'The'로 'and' 'of' 'to' 'that'의 순서라고 합니다.
정말 그런 것인지, 자신도 해 봅니다.

1. 데이터 얻기



텍스트 파일 형식의 성경을 찾아 보면 Github에있었습니다.
몰래 빌리겠습니다.
아래 중앙에 있는 “View Law”를 누르면 적당한 텍스트 데이터가 열립니다.
Ctrl+A로 모두 선택하고 Ctrl+C로 복사합니다.

bible.txt


그런 다음 터미널을 엽니다(Ubuntu의 경우 Ctrl+Alt+T).
$ cat > bible

방금 복사한 부분을 터미널 위에 붙여넣고 Enter 키를 눌러 Ctrl+C로 완료합니다.

2. 빈출 단어 조사(텍스트 마이닝 예)



그러면 조속히 성경에서 가장 자주 사용되는 단어를 조사합니다.
터미널에 명령을 입력합니다.
$ cat bible | sed 's/[,|.|:|;|"|?| ]/\n/g' | tr A-Z a-z | sort | uniq -c | sort -n -r | less



「the」가 64184회로, 확실히 빈출 단어인 것 같네요.
그리고 기재대로 「and」 「of」 「to」 「that」의 순서로 많은 것 같습니다.
스페이스 키를 눌러 점점 아래까지 봅시다. 종료하려면 q를 누릅니다.

3. 메모



『입문자의 Linux』는 매우 알기 쉬운 책이었습니다.

좋은 웹페이지 즐겨찾기