텍스트 정규화를위한 파이썬 라이브러리를 MATLAB에서 호출

소개



텍스트 해석을 하기 위해서, 다른 언어로 쓰여진 기존의 텍스트 해석 함수를 사용하고 싶은 경우가 있으므로 해 보았습니다.
neologdn이라는 파이썬 기반 문서 초기화 도구를 MATLAB에서 호출합니다. 필자는 파이썬 초보자이므로 여러가지 틀렸다면 죄송합니다.

환경



MATLAB R2020a
파이썬 3.6

절차



파이썬 라이브러리 함수 호출 라는 공식 페이지가 있으므로 이쪽을 참고에 준비합니다. MATLAB과 Python의 두 환경이 필요하게 되는 것입니다만, 한마디로 Python이라고 해도, MATLAB로부터의 호출에 서포트하고 있는 것이 있어, 그쪽이 간단할 것 같기 때문에 공식 페이지대로에 설치했습니다.

시험에 MATLAB 측에서 다음을 입력합니다.

MATLAB
py.os.listdir('.')

그러면 Python 측의 os.listdir을 사용하여 파일 목록을 볼 수있었습니다.

다음으로, neologdn 라고 하는, 일본어를 정규화해 주는 툴을 사용할 준비를 합니다.

neologdn is a Korean text normalizer for mecab-neologd. The normalization is based on the neologd's rules: htps : // 기주 b. 코 m / 네오 gd / 메카 b - 빠 ぢ c - 네오 gd / 우키 / 레게 XP. 그럼

neologd를 설치합니다.

명령 프롬프트
py -m pip install neologdn

이것으로 준비 완료입니다.

neologd readme의 예문을 MATLAB에서 실행해 봅시다.

MATLAB
>> py.neologdn.normalize("ハンカクカナ")

ans = 

  Python str にはプロパティがありません。

    ハンカクカナ

>> py.neologdn.normalize("全角記号!?@#")

ans = 

  Python str にはプロパティがありません。

    全角記号!?@#

>> py.neologdn.normalize("全角記号例外「・」")

ans = 

  Python str にはプロパティがありません。

    全角記号例外「・」

>> py.neologdn.normalize("長音短縮ウェーーーーイ")

ans = 

  Python str にはプロパティがありません。

    長音短縮ウェーイ

>> py.neologdn.normalize("チルダ削除ウェ~∼∾〜〰~イ")

ans = 

  Python str にはプロパティがありません。

    チルダ削除ウェイ

>> py.neologdn.normalize("いろんなハイフン˗֊‐‑‒–⁃⁻₋−")

ans = 

  Python str にはプロパティがありません。

    いろんなハイフン-

>> py.neologdn.normalize("   PRML  副 読 本   ")

ans = 

  Python str にはプロパティがありません。

    PRML副読本

>> py.neologdn.normalize(" Natural Language Processing ")

ans = 

  Python str にはプロパティがありません。

    Natural Language Processing

>> py.neologdn.normalize("かわいいいいいいいいい", pyargs('repeat',6))

ans = 

  Python str にはプロパティがありません。

    かわいいいいいい

>> py.neologdn.normalize("無駄無駄無駄無駄ァ", pyargs('repeat',1))

ans = 

  Python str にはプロパティがありません。

    無駄ァ

>> 

readme대로 처리할 수 있네요.
덧붙여서 결과는 str형으로 돌아오는 것 같습니다.


Text Analytics Toolbox에서 토큰으로 나누기 전에 이런 느낌으로 정규화할 수 있으면 편리할 것 같네요.

좋은 웹페이지 즐겨찾기