리눅스 커맨드를 이용한 텍스트 마이닝 【성경】
스스로 해 본다.
0. 소개
그(나사와라 현로씨)는 이전, 성경의 해석을 실시한 것 같습니다.
성경에서 가장 자주 사용되는 단어는 'The'로 'and' 'of' 'to' 'that'의 순서라고 합니다.
정말 그런 것인지, 자신도 해 봅니다.
1. 데이터 얻기
텍스트 파일 형식의 성경을 찾아 보면 Github에있었습니다.
몰래 빌리겠습니다.
아래 중앙에 있는 “View Law”를 누르면 적당한 텍스트 데이터가 열립니다.
Ctrl+A로 모두 선택하고 Ctrl+C로 복사합니다.
bible.txt
그런 다음 터미널을 엽니다(Ubuntu의 경우 Ctrl+Alt+T).
$ cat > bible
방금 복사한 부분을 터미널 위에 붙여넣고 Enter 키를 눌러 Ctrl+C로 완료합니다.
2. 빈출 단어 조사(텍스트 마이닝 예)
그러면 조속히 성경에서 가장 자주 사용되는 단어를 조사합니다.
터미널에 명령을 입력합니다.
$ cat bible | sed 's/[,|.|:|;|"|?| ]/\n/g' | tr A-Z a-z | sort | uniq -c | sort -n -r | less
「the」가 64184회로, 확실히 빈출 단어인 것 같네요.
그리고 기재대로 「and」 「of」 「to」 「that」의 순서로 많은 것 같습니다.
스페이스 키를 눌러 점점 아래까지 봅시다. 종료하려면 q를 누릅니다.
3. 메모
『입문자의 Linux』는 매우 알기 쉬운 책이었습니다.
Reference
이 문제에 관하여(리눅스 커맨드를 이용한 텍스트 마이닝 【성경】), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/youichi_io/items/ecba18acd30a293b2d64텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)