Google Colaboratory에서 Whisper를 실행하는 방법

8033 단어 aipythontutorialcolab
Whisper는 OpenAI에서 공개한 범용 음성 인식 모델입니다.

공식 기사에 따르면 자동 음성 인식 시스템은 웹에서 수집된 68만 시간의 다국어 및 멀티태스킹 데이터를 학습합니다.

📖 Introducing Whisper

Whisper의 높은 정확도와 사용 편의성에 놀랐습니다.
Whisper는 매우 유용한 명령줄을 제공하므로 부담 없이 사용해 볼 수 있습니다.

📖 Command-line usage

Google Colaboratory에서 Whisper를 실행하는 방법은 여기에서 설명하겠습니다.
Google Colaboratory에서 즉시 Whisper를 사용해보고 싶다면 이 Colab 노트북을 참조하세요.

📖 Colaboratory whisper-mock-en

새 Colab 노트북 만들기



처음에 Google 드라이브에서 새 Colab 노트북을 만들어야 합니다.



노트북이 GPU를 사용하고 있는지 확인해야 합니다. 그렇게 하려면 메뉴에서 런타임 유형을 GPU로 변경하십시오.


패키지 설치



Whisper를 실행하려면 다음과 같은 패키지를 설치해야 합니다.

# Install packages
!pip install git+https://github.com/openai/whisper.git

폴더 추가



재생 버튼을 클릭할 때 새 폴더를 생성하려면 이 코드를 추가하세요.

import os

# Add folders
checkContentFolder = os.path.exists("content")
checkDownLoadFolder = os.path.exists("download")
if not checkContentFolder:
  os.mkdir("content")
if not checkDownLoadFolder:
  os.mkdir("download")

오디오 파일 업로드



패키지를 설치하고 폴더를 추가한 후 최소한 오디오 파일을 content 폴더에 업로드해야 합니다.

파이썬으로 전사



번역할 오디오 및 대상 언어의 파일 이름을 수정할 수 있습니다.

import whisper

fileName = "sample.m4a"
lang = "en"
model = whisper.load_model("base")

# Load audio
audio = whisper.load_audio(f"content/{fileName}")
audio = whisper.pad_or_trim(audio)

mel = whisper.log_mel_spectrogram(audio).to(model.device)

# Output the recognized text
options = whisper.DecodingOptions(language=lang, without_timestamps=True)
result = whisper.decode(model, mel, options)
print(result.text)

# Write into a text file
with open(f"download/{fileName}.txt", "w") as f:
  f.write(f"▼ Transcription of {fileName}\n")
  f.write(result.text)

전사 파일 다운로드



이 코드를 추가하면 전사 파일을 쉽게 다운로드할 수 있습니다.

from google.colab import files
!zip -r download.zip download
files.download("download.zip")

Google Colaboratory에서 Whisper를 실행해 봅시다.



Colab 노트북에서 코드가 어떻게 작동하는지 확인해 보겠습니다.
Whisper를 사용하기 위해 Colab 노트북을 준비했으니 이 노트북을 복사하시면 됩니다.

📖 Colaboratory whisper-mock-en




결론



이 튜토리얼을 통해 첫 번째 텍스트 변환을 생성할 수 있기를 바랍니다.

좋은 웹페이지 즐겨찾기