리눅스 커맨드를 이용한 텍스트 마이닝 【성경】

나사하라 현로 씨의 저작 「입문자의 Linux」(블루 벅스 출판)의 282 페이지에 기재되어있는 내용을
스스로 해 본다.

그(나사와라 현로씨)는 이전, 성경의 해석을 실시한 것 같습니다.
성경에서 가장 자주 사용되는 단어는 'The'로 'and' 'of' 'to' 'that'의 순서라고 합니다.
정말 그런 것인지, 자신도 해 봅니다.

텍스트 파일 형식의 성경을 찾아 보면 Github에있었습니다.
몰래 빌리겠습니다.
아래 중앙에 있는 “View Law”를 누르면 적당한 텍스트 데이터가 열립니다.
Ctrl+A로 모두 선택하고 Ctrl+C로 복사합니다.

bible.txt

그런 다음 터미널을 엽니다(Ubuntu의 경우 Ctrl+Alt+T).

$ cat > bible

방금 복사한 부분을 터미널 위에 붙여넣고 Enter 키를 눌러 Ctrl+C로 완료합니다.

그러면 조속히 성경에서 가장 자주 사용되는 단어를 조사합니다.
터미널에 명령을 입력합니다.

$ cat bible | sed 's/[,|.|:|;|"|?| ]/\n/g' | tr A-Z a-z | sort | uniq -c | sort -n -r | less

「the」가 64184회로, 확실히 빈출 단어인 것 같네요.
그리고 기재대로 「and」「of」「to」「that」의 순서로 많은 것 같습니다.
스페이스 키를 눌러 점점 아래까지 봅시다. 종료하려면 q를 누릅니다.

『입문자의 Linux』는 매우 알기 쉬운 책이었습니다.

이 문제에 관하여(리눅스 커맨드를 이용한 텍스트 마이닝 【성경】), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/youichi_io/items/ecba18acd30a293b2d64

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다