어종과 모라의 종류의 관계를 조사하고 싶다 (UniDic) (전반)

6489 단어 unidic파이썬mecab
*이 프로젝트는 작업 중입니다.

계량언어학을 공부하기 시작해 「데이터로 배우는 일본어 입문」(계량국어학회편, 아사쿠라서점)을 읽고 있다.
요전날 계량국어학회 특별강의에서 제1장부터 제5장까지의 해설을 들을 수 있었다.
제1장의 음성·음운-현대의 일본어에는 몇 종류의 소리가 있는 거야? 어떤 소리가 자주 사용됩니까? '의 부분에서 '화어', '한어', '외래어'의 3가지 어종에서는 사용되는 모라의 종류가 다를 수 있다. 이 책에서 공부하는 초학자는 손을 움직여 비교해 보면 좋을지도~라고 들었다. 해보자.

할 일



「일본어」 「한어」 「외래어」의 3개의 어종의 모라를 비교한다.
비교하는 단어의 어종과 읽기는 UniDic을 사용한다.

준비



환경을 정돈하고 그 때 UniDic를 대략 바라본다.

환경


  • MeCab 0.996과 UniDic (ver. 2.1.2)을 설치했습니다.
  • MeCab 설정 파일을 편집하여 UniDic을 사용할 수 있도록 했습니다.
    참고 👉 MeCab 및 UNIDIC을 Ubuntu 14.04에 설치 - Yura YuLife
  • MeCab 설정 파일을 편집하여 어종을 표시할 수 있도록 했다. 참고 👉 MeCab + Unidic을 사용하여 단어 어종 (일본어, 한어) 표시 - Qiita
  • ~/unidic-mecab-2.1.2_src/lex.csv를 작업 폴더에 복사했습니다.
    그건 그렇고, ~/unidic-mecab-2.1.2_src/unidic-mecab.pdf는 "unidic-mecab 사용자 매뉴얼".
    # MeCab で「こおりつけ!」を解析した結果
    こおりつけ      コーリツケ      コオリツク      凍り付く        動詞-一般       五段-カ行       命令形  和
    !                      !      補助記号-句点                   記号
    EOS
    

    이번에는 MeCab을 사용하지 않을 수도 있습니다.

    UniDic 읽어보기



    0행부터 756462행까지.
    랜덤하게 10행 표시해 본다.
    # study_unidic.py
    # coding: UTF-8
    import random
    ranli = []
    for ir in range(10):
        ranli.append(random.randrange(0, 756462+1))
    
    with open("./data/lex.csv", 'r', encoding = "UTF-8") as f:
        for i, lin in enumerate(f):
            if i in ranli:
                print(lin, end="")
        print(i)
    
    # 結果
    送りこめん,1260,1260,10930,動詞,一般,*,*,下一段-マ行,連体形-撥音便,オクリコム,送り込む,送りこめん,オクリコメン,送りこめる,オクリコメル,和,*,*,*,*
    思い取ろ,1405,1405,10896,動詞,一般,*,*,五段-ラ行,意志推量形,オモイトル,思い取る,思い取ろ,オモイトロ,思い取る,オモイトル,和,*,*,*,*
    居ろっ,3913,3913,10963,動詞,非自立可能,*,*,五段-ラ行,意志推量形,オル,居る,居ろっ,オロッ,居る,オル,和,*,*,*,*
    規則,5146,5146,7239,名詞,普通名詞,一般,*,*,*,キソク,規則,規則,キソク,規則,キソク,漢,*,*,*,*
    くぐまる,1414,1414,11824,動詞,一般,*,*,五段-ラ行,終止形-一般,クグマル,屈まる,くぐまる,クグマル,くぐまる,クグマル,和,*,*,*,*
    こまかろう,5164,5164,10560,形容詞,一般,*,*,形容詞,意志推量形,コマイ,細い,こまかろう,コマカロー,こまい,コマイ,和,*,*,*,*
    しずみゃ,1377,1377,12251,動詞,一般,*,*,五段-マ行,仮定形-融合,シズム,沈む,しずみゃ,シズミャ,しずむ,シズム,和,*,*,*,*
    とりちらせ,1321,1321,12666,動詞,一般,*,*,五段-サ行,命令形,トリチラス,取り散らす,とりちらせ,トリチラセ,とりちらす,トリチラス,和,*,*,*,*
    拓い,1679,1679,12361,動詞,一般,*,*,文語四段-カ行,連用形-イ音便,ヒラク,開く,拓い,ヒライ,拓く,ヒラク,和,*,*,*,*
    振替え,1078,1078,12412,動詞,一般,*,*,下一段-ア行,未然形-一般,フリカエル,振り替える,振替え,フリカエ,振替える,フリカエル,和,*,*,*,*
    756462
    

    와우, 일본어 뿐이고 동사 밖에 없네.

    UniDic에는 어떤 종류의 어종이 있습니까?



    설명 푹신하고 갑자기 결과.



    어종
    수록 수
    비율


    일본
    512,807
    67.79%

    딱딱한
    107,114
    14.16%


    67,055
    8.86%

    외부
    37,645
    4.98%

    혼합
    27,306
    3.61%

    기호
    4,528
    0.60%


    6
    0.00%

    알 수 없음
    2
    0.00%


    역시. 일본어가 많은 결과가 되었다.
    고유 명사가 많은 것도 형태소 해석용 사전의 특징일지도.

    UniDic에는 어떤 품사가 많습니까?



    김에 품사도 보았습니다.



    품사
    수록 수
    비율
    NVMI
    메모


    동사
    426,404
    56.37%
    V

    명사
    277,300
    36.66%
    N

    형용사
    33,486
    4.43%
    M

    부사
    7,430
    0.98%
    M

    형상사
    3,921
    0.52%
    M
    이른바 '형용동사' '나 형용사'

    접미사
    1,925
    0.25%



    감동사
    1,344
    0.18%
    I

    기호
    1,196
    0.16%


    조동사
    1,189
    0.16%


    보조 기호
    863
    0.11%


    대명사
    430
    0.06%
    N

    조사
    370
    0.05%


    접두사
    365
    0.05%


    연체사
    135
    0.02%
    M

    연결사
    104
    0.01%
    I

    공백
    1
    0.00%



    * "접미사-명사적"… "물리학자"의 "자", "접미사-형용사적"… "암이 되기 어렵다"의 "어려움"

    동사가 많은 것은 활용형을 망라하고 있기 때문일 것이다.

    위의 비율은 「일본어 중의 비율」과는 다르다는 것은, 여기에서 누르고 있어야 한다.
    국어사전에서 하나의 항목이 되고 있거나 어휘조사에서 하나의 어휘로 꼽히거나 하는 것도 표기나 출현형이 다르면 다른 단어로 수록된다.
    국어 사전은 지면의 사정으로 게재수에 한계가 있고, 국어 사전에 실려 있어도 어휘 조사에서 볼 수 없는 것도 있을 것이다.

    이번에는 「일본어」 「한어」 「외래어」의 3가지 어종의 모라를 비교하고 싶지만 조사 대상에 동사(의 활용형)가 많은 것은 문제가 있을까. 있을지도 모른다. 하지만 동사의 비율이라고 하는 것도 문체에 따라 달라진다고 공부했지요~ 어떻게 하자.

    라고 하는 것으로, 일단 신경쓰지 않고 해 보기로 한다.
    (계속)
  • 좋은 웹페이지 즐겨찾기