librosa로 사운드 신호 처리하기 - 초급편

개시하다


필자는 음성 신호 처리와 음성 식별 주변에 대한 지식이 전혀 없다.
이 방면의 전문가는 본 보도를 추천하지 않는다(;´.ω・)
겸사겸사 초급, 중급, 고급으로 공부할 생각입니다.

모티프


작업상 "악곡 평론해 주세요!"라는 말이 나왔다.

악곡 평론은 음성인식으로 분류됩니까?


답안은 부정적이다.음성인식이란 사람이 말하는 소리가 기계에서 문자로 바뀌었기 때문에 악곡 복제품은 음성인식이라고 부르지 않는다.사이트 축소판 그림 이해하기 쉽습니다.)
악곡 리뷰는 MIR로 불리는 연구 분야인 듯 사운드 시그널 처리가 핵심이 됐다.

이른바 MIR


Music Informatio Retrieval의 생략
평소 사용하는 아티스트 이름과 곡명의 악곡 검색은 텍스트 데이터를 인풋으로, MIR은 사운드 웨이브 자체를 입력으로 한다.
다음 MIR의 구체적인 예
  • 청중에게 어울리는 음악 리뷰
  • 악기의 분리와 악기 식별
  • 자동 스펙트럼(귀 복제 필요 없는 고름집 63;)
  • 자동 분류(유형 레이블 등)
  • 음악 생성 etc...
  • 음성 신호 처리를 위한 도구, 라이브러리

  • SPTK
  • 음성 분석에 사용할 명령을 제공한다. 예를 들어 샘플링, 부립엽 변환 등이다.음성 신호 처리, 음성 인식계에서 상당히 유명한 것 같다.
  • librosa
  • 음악 분석에 사용되는 파이톤 패키지.2015년 발매.
  • SOX
  • 사운드 파일 형식 변환 소프트웨어
  • lame
  • 사운드 파일 형식 변환 소프트웨어
  • 위 3개를 만져봤지만 음성 신호 처리 초보자인 저에게는 SPTK librosa보다 낫습니다.(SPTK의 환경 구축은 매우 번거롭다...)
    그리고 파이톤에서 기계를 배우면서 음성 신호 처리를 배우고 싶은 사람에게도 추천한다.(SPTK도 파이톤부터 쓸 수 있지만)
    그래서 오프닝이 길어졌고, 이번에는 리브라를 소개했다.
    (참고로 SPTK를 이용하여 유사한 악곡 시스템을 구축한다는 보도는 너무 우수하다.http://aidiary.hatenablog.com/entry/20121014/1350211413

    librosa 설치


    환경을 구축하는 도중에'jupter notebook'이 통과되지 못해 조급해서 프로그램을 정리해 보겠습니다.
    ※ 필자는 Windows 사용자입니다.그리고 아나콘다 환경에서 하고 싶어서 파이톤을 직접 하는 사람은 2.부터 하면 된다고 생각해요.
    ※ pip install은 범용되지 않습니다(C++에 컴파일러가 없을 수도 있습니다)
    절차.
    1. Anaconda의 재설치 (Mac와 Linux는 필요 없을 수도 있습니다. Windows의 Anaconda와 Python 버전도 최신 버전이라면 필요 없습니다.)
    2.resampy DL
    3. DL librosa
    4. 설치Microsoft Visual C++ Compiler for Python 2.7
    5. Visual C+2008 64-bit Commond Proompt를 열고 reampy, librosa의 각 디렉토리에서 다음 명령을 실행합니다.
    python setup.py build
    python setup.py install
    
    파이톤으로
     library(librosa)
    
    하면, 만약, 만약...
    이전 환경: Python 2.7.11:Anaconda2-4.0.7
    새 환경: Python 2.7.12:Anaconda2-4.2.0

    librosa와 접촉하기 전에


    음성 신호 처리를 시작할 때 조사 내용을 잘 정리하다
  • 소리의 세 가지 요소
  • 소리의 크기: 파의 진폭에 해당한다.소리가 크면 클수록 진폭이 커진다.
  • 소리 높이: 파의 주파수, 주기에 해당한다.소리가 높을수록 주파수가 높고 주기가 짧다.
  • 음색: 파도의 형상에 해당한다.

  • 샘플링 빈도(Hz)
  • 단위 시간당 샘플링 빈도
  • 음악 CD에 사용된 샘플링 주파수는 44.1kHz
  • 이다.
  • 프레임 수(≈ 데이터 양)
  • 채널 수: 서로 다른 데이터를 동시에 출력할 때의 소리 정보의 수.모노 1, 스테레오 2.
  • 양적 비트수
  • 아날로그 데이터가 한 번에 몇 비트로 디지털화됩니까
  • 숫자가 커지면 데이터 양이 증가
  • 오디오에서 16비트 이상, 전화음성이면 8비트, 영상신호면 8~10비트
  • 드디어 주제


    librosa는 음악 분석에 사용되는 파이톤 포장입니다.
    MIR 모듈을 제공합니다.
    참조librosa 자습서한 일
  • 파형 가시화
  • 주:librosa도 시험해 보았고 최종적으로 Python 표준 라이브러리 웨이브를 사용했습니다.
  • 라켓 추적기
  • 소리의 재현
  • 원음을 타악기·고음역/화음으로 분할
  • ※ 이후 아이피니트를 드립니다.

    금후

  • '가급적 편파적이지 않은 학습 데이터(악곡)를 수집한다.
  • 참조 URL: https://kodack64.gitbooks.io/toho_mir_ml/content/1-0.html
  • 음성 분석 주위에서 다시 배우기(부립엽 변환, 창 변환, 피드백 필터 등)
  • 중급편의 예정: 악곡 특징량에 대한 지식과 추출 방법 습득
  • 코드 진행, HVL, BPM, MBL, MSL, ASL, mfcc, 국부특징량(이른바 후렴구) 등...
  • 고급편의 예정: 유사한 곡의 특징량을 찾아 가장 적합한 곡
  • 특징량을 결합하여 학습
  • 유사한 악곡 시스템의 구축 및 평가.(평가 방법을 고려해야 한다.)
  • 감상

  • 기계로 이 무기를 배우려고 음성신호 처리의 세계로 갔는데 지식이 부족해서 더 열심히 공부하겠습니다
  • 개인은 기계학습의 인풋 데이터를 소리로 만들면 학습의 동력이 크게 높아진다고 생각한다.사실은 이번 가장 큰 발견이었다.
  • 참조 링크 요약

  • http://recognition.web.fc2.com/
  • http://hhsprings.pinoko.jp/site-hhs/2015/02/microsoft-visual-c-compiler-for-python-2-7%E3%81%AF%E3%81%B2%E3%81%A8%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AA%E3%82%89%E3%81%9A/
  • http://np2lkoo.hatenablog.com/entry/2016/09/22/052354
  • 감사합니다.다음을 기대해주세요!

    좋은 웹페이지 즐겨찾기