속삭임 대 현재 대안 평가

3653 단어 whisper

요약



최근 openai는 새로운 전사 도구인 Whispers를 출시했습니다. wit.ai와 같은 현재 옵션과 비교하여 평가하고 비교 방법을 확인하고 싶었습니다.

프로젝트에 귓속말을 사용하려면 Python 3.7 이상이 필요하고 모델을 설치해야 합니다.

pip install whispers


내 사용 사례의 경우 속도가 효율성보다 더 중요하기 때문에 기본 모델을 사용합니다(실시간 전사).

wit.ai의 기존 구현과 비교하고 있지만 내 콘텐츠의 길이는 일반 사용자보다 약간 깁니다. wit.ai의 기술적 한계로 인해 저는 4분 30초 간격으로 비디오 청크를 보내고 있으며 귓속말이 로컬에서 실행되므로 그 제한이 다소 완화될 수 있습니다.

이 분석을 위해 저는 유튜브 비디오(구글 전사 포함)를 wit.ai(페이스북에서)가 생성하는 것과 속삭임이 생성하는 것과 비교하고 있습니다.
ffmpeg를 사용하여 오디오를 mp3로 변환한 다음 해당 라이브러리를 사용하여 오디오를 전사합니다. 주어진 youtube 비디오의 경우 비공식 youtube api를 사용하여 대본을 추출합니다.

Jim Cramer의 스토크 토크와 함께 사용할 것입니다.

예를 들어 이 샘플 구문whispers에서 잘 작동합니다. dalle의 놀라운 성능을 감안할 때 openai 모델이 꽤 잘 작동한다는 것은 놀라운 일이 아닙니다.

whispers: 
Sebastian says the volatility index, the bond market, and bond volatility are all pointing towards lower stock prices.

wit.ai:
Sebastian says the volatile index, the bomb market and bond vault totally are all pointing towards lower stock prices

google:
Sebastian says the volatility index the bond market and bond volatility are all pointing toward lower stock prices


이 문구에서 당신은 귓속말이 최고의 성능을 가지고 있고, wit.ai가 최악의 성능을 가지고 있으며, 구글이 중간에 있다는 것을 알 수 있습니다.

또 다른 예에서 귓속말은 B 대신 P를 감지하지 못합니다. Wit.ai는 P를 잘 감지하지만 Google은 B를 더 잘 감지합니다.

whispers:
Even though the selling in the S&B has slowed versus where we were looking at earlier this month, the volatility index has shut up much, much more.

google:
even though the selling in the s p has slowed versus where we were looking at earlier this month the volatility index has shot up much much more

wit.ai:
failed to detect the speech


이 경우 wit.ai보다 귓속말이 더 잘한다고 생각하지만 Google은 귓속말보다 더 잘합니다. 음성을 감지하는 스크립트가 wit.ai에서 제대로 작동하지 않거나 텍스트가 감지되지 않은 것처럼 텍스트를 떨어뜨린 것 같습니다.

이것은 귓속말의 장점을 보여줍니다. 30초 슬라이딩 윈도우가 있어 이와 같은 텍스트를 놓칠 가능성을 줄입니다.

또 다른 예에서, 귓속말은 음성을 잘 감지하지만 wit.ai는 음성을 더 잘 감지합니다.

whispers:
If you're still another turbulent week where the average is cut smashed, how much worse do things have to get before we stem the bleeding?

wit.ai:
If you're still another turbulent week or the average got smash How much worse do things have to get before we stem the bleeding?

google:
foreign if there's still another turbulent week where the averages got smashed how much worse do things have to get before we stem the bleeding unfortunately


이 경우 Google은 음성을 더 잘 감지하고, 귓속말은 wit.ai보다 성능이 떨어지고, wit.ai는 google보다 성능이 떨어집니다.

전반적으로 귓속말은 전사율이 우수한 것으로 보이지만 완벽하지는 않습니다. wit.ai보다 낫지만 기본 Python 바인딩이 있으므로 사용하기가 훨씬 쉽습니다.

원시 기록 파일은 다음에서 사용할 수 있습니다.
  • https://friendlyuser.github.io/assets/code/witai.json
  • https://friendlyuser.github.io/assets/code/whispers.json


  • 내가 사용한 코드는 https://github.com/dli-invest/fdrtt/commit/ca74636cbc881a3f34a9753b19c216f9ea35c7a8에서 사용할 수 있습니다.

    https://openai.com/blog/whisper/에서 더 많은 속삭임 문서를 사용할 수 있으며 예제는 매우 유망합니다.

    좋은 웹페이지 즐겨찾기