Visual to Sound:Generating Natural Sound for Videos in the Wild
5594 단어 기계 학습
1. 어떤 물건?
비디오 입력 및 사운드 생성
2. 선행 연구에 비해 어디가 센가?
완전히 새로 소리를 만드는 새로운 시도?
3. 기술과 기법의 관건은 어디에 있는가?
Visually Engaged and Grounded AudioSet (VEGAS)
사운드 및 영상의 데이터 세트로 Audio Set일을 사용합니다.
이렇게 되면 배경의 소리가 주요 소리를 방해하고 음원은 프레임 밖에 잘못 분류된 것을 포함하기 때문에 그 중에서 10개의 종류를 선택하여 데이터 집합을 새로 만들었다.
범주:
아기 울음소리, 코골이, 개, 물살, 불꽃놀이, 철도, 프린터, 북, 헬리콥터, 체인톱
데이터 예: 프레임 이미지와 사운드 데이터의 위치와 동일한 색상의 부분
Sound generator
적절한 품질을 확보하기 위해 16kHz의 사운드를 생성합니다.
따라서 매우 긴 시퀀스를 생성할 수 있는 SampleRNN이을 사용합니다.
SamplerNN은 계층적으로 구축된 회복 신경 네트워크입니다.
아래 층(상세한 층), 앞의 K라는 정보를 제외하고 위의 층(조잡한 층)의 정보도 소리를 생성하는 데 사용된다.
WaveNet삼은 개 짖는 소리와 같은 소리를 잘 생성하지 못하는 것 같다.
video encoder
세 가지 방법을 사용했습니다.
Frame-to-frame method
위 그림의 녹색 테두리
ImageNet사에서 학습한 VGG19오를 사용하여 프레임 이미지에서 4096비트 벡터의 특징을 추출합니다.
그림과 같이 Sound generator의 가장 거친 레이어에 입력합니다.
Sequence-to-sequence method
위 그림 빨간색 상자
Frame-to-frame에서 사용되는 VGG의 특징을 Sound generator의 가장 거친 층의 최초 입력으로 사용합니다.
Flow-based method
VGG의 특징은 분류에 사용되는 특징이기 때문에 회전과 이동 등 불변성을 가지고 있다.
그러나 소리를 생성하는 상황에서 미묘한 동작은 개가 짖는 등 소리 생성에도 필요하기 때문에 동작의 정보를 명확하게 도입하기 위해 광학 절차를 사용한다.
4. 어떻게 유효성을 검증합니까?
VEGA 데이터 세트를 사용하여 실험합니다.
애니메이션의 길이가 짧은 것은 10초 동안 반복해서 고정시킵니다.
Qualitative visualization
위에서 아래로 Frame, Sequence, Flow의 방법으로 생성된 소리와 맨 아래는 원시적인 소리
열차가 가까워질수록 소리가 커진다.
불꽃놀이의 흐름 속에서 여분의 소리가 생성되었지만 애니메이션에는 있는 것 같다.
비디오 추가
Numerical evaluation
Loss
평균 교차 엔트로피 평가
Human evaluation experiments
개인 평가
상응하는 동영상과 목소리를 제시하고 가짜인지 아닌지를 물어본 결과다.
7할의 애니메이션에서 진짜로 오해받을 수 있는 소리를 만들 수 있다.
5. 논란이 있습니까?
음성 생성에 사용할 데이터 집합 만들기
생성된 음성은 7명을 속였다
장래에 소리 생성에서 물체의 식별과 추측을 진행하기를 희망한다
J. F. Gemmeke, D. P. W. Ellis, D. Freedman, A. Jansen, W. Lawrence, R. C. Moore, M. Plakal, and M. Ritter. Au- dio set: An ontology and human-labeled dataset for audio events. In ICASSP, 2017. ↩
S. Mehri, K. Kumar, I. Gulrajani, R. Kumar, S. Jain, J. Sotelo, A. C. Courville, and Y. Bengio. Samplernn: An un- conditional end-to-end neural audio generation model. ICLR, 2016. ↩
A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. W. Senior, and K. Kavukcuoglu. Wavenet: A generative model for raw au- dio. ↩
J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei- Fei. Imagenet: A large-scale hierarchical image database. In CVPR, ↩
K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. ICLR, 2015. ↩
Reference
이 문제에 관하여(Visual to Sound:Generating Natural Sound for Videos in the Wild), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/kafuka/items/63cdea6c56145b2180e8
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
완전히 새로 소리를 만드는 새로운 시도?
3. 기술과 기법의 관건은 어디에 있는가?
Visually Engaged and Grounded AudioSet (VEGAS)
사운드 및 영상의 데이터 세트로 Audio Set일을 사용합니다.
이렇게 되면 배경의 소리가 주요 소리를 방해하고 음원은 프레임 밖에 잘못 분류된 것을 포함하기 때문에 그 중에서 10개의 종류를 선택하여 데이터 집합을 새로 만들었다.
범주:
아기 울음소리, 코골이, 개, 물살, 불꽃놀이, 철도, 프린터, 북, 헬리콥터, 체인톱
데이터 예: 프레임 이미지와 사운드 데이터의 위치와 동일한 색상의 부분
Sound generator
적절한 품질을 확보하기 위해 16kHz의 사운드를 생성합니다.
따라서 매우 긴 시퀀스를 생성할 수 있는 SampleRNN이을 사용합니다.
SamplerNN은 계층적으로 구축된 회복 신경 네트워크입니다.
아래 층(상세한 층), 앞의 K라는 정보를 제외하고 위의 층(조잡한 층)의 정보도 소리를 생성하는 데 사용된다.
WaveNet삼은 개 짖는 소리와 같은 소리를 잘 생성하지 못하는 것 같다.
video encoder
세 가지 방법을 사용했습니다.
Frame-to-frame method
위 그림의 녹색 테두리
ImageNet사에서 학습한 VGG19오를 사용하여 프레임 이미지에서 4096비트 벡터의 특징을 추출합니다.
그림과 같이 Sound generator의 가장 거친 레이어에 입력합니다.
Sequence-to-sequence method
위 그림 빨간색 상자
Frame-to-frame에서 사용되는 VGG의 특징을 Sound generator의 가장 거친 층의 최초 입력으로 사용합니다.
Flow-based method
VGG의 특징은 분류에 사용되는 특징이기 때문에 회전과 이동 등 불변성을 가지고 있다.
그러나 소리를 생성하는 상황에서 미묘한 동작은 개가 짖는 등 소리 생성에도 필요하기 때문에 동작의 정보를 명확하게 도입하기 위해 광학 절차를 사용한다.
4. 어떻게 유효성을 검증합니까?
VEGA 데이터 세트를 사용하여 실험합니다.
애니메이션의 길이가 짧은 것은 10초 동안 반복해서 고정시킵니다.
Qualitative visualization
위에서 아래로 Frame, Sequence, Flow의 방법으로 생성된 소리와 맨 아래는 원시적인 소리
열차가 가까워질수록 소리가 커진다.
불꽃놀이의 흐름 속에서 여분의 소리가 생성되었지만 애니메이션에는 있는 것 같다.
비디오 추가
Numerical evaluation
Loss
평균 교차 엔트로피 평가
Human evaluation experiments
개인 평가
상응하는 동영상과 목소리를 제시하고 가짜인지 아닌지를 물어본 결과다.
7할의 애니메이션에서 진짜로 오해받을 수 있는 소리를 만들 수 있다.
5. 논란이 있습니까?
음성 생성에 사용할 데이터 집합 만들기
생성된 음성은 7명을 속였다
장래에 소리 생성에서 물체의 식별과 추측을 진행하기를 희망한다
J. F. Gemmeke, D. P. W. Ellis, D. Freedman, A. Jansen, W. Lawrence, R. C. Moore, M. Plakal, and M. Ritter. Au- dio set: An ontology and human-labeled dataset for audio events. In ICASSP, 2017. ↩
S. Mehri, K. Kumar, I. Gulrajani, R. Kumar, S. Jain, J. Sotelo, A. C. Courville, and Y. Bengio. Samplernn: An un- conditional end-to-end neural audio generation model. ICLR, 2016. ↩
A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. W. Senior, and K. Kavukcuoglu. Wavenet: A generative model for raw au- dio. ↩
J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei- Fei. Imagenet: A large-scale hierarchical image database. In CVPR, ↩
K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. ICLR, 2015. ↩
Reference
이 문제에 관하여(Visual to Sound:Generating Natural Sound for Videos in the Wild), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/kafuka/items/63cdea6c56145b2180e8
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
VEGA 데이터 세트를 사용하여 실험합니다.
애니메이션의 길이가 짧은 것은 10초 동안 반복해서 고정시킵니다.
Qualitative visualization
위에서 아래로 Frame, Sequence, Flow의 방법으로 생성된 소리와 맨 아래는 원시적인 소리
열차가 가까워질수록 소리가 커진다.
불꽃놀이의 흐름 속에서 여분의 소리가 생성되었지만 애니메이션에는 있는 것 같다.
비디오 추가
Numerical evaluation
Loss
평균 교차 엔트로피 평가
Human evaluation experiments
개인 평가
상응하는 동영상과 목소리를 제시하고 가짜인지 아닌지를 물어본 결과다.
7할의 애니메이션에서 진짜로 오해받을 수 있는 소리를 만들 수 있다.
5. 논란이 있습니까?
음성 생성에 사용할 데이터 집합 만들기
생성된 음성은 7명을 속였다
장래에 소리 생성에서 물체의 식별과 추측을 진행하기를 희망한다
J. F. Gemmeke, D. P. W. Ellis, D. Freedman, A. Jansen, W. Lawrence, R. C. Moore, M. Plakal, and M. Ritter. Au- dio set: An ontology and human-labeled dataset for audio events. In ICASSP, 2017. ↩
S. Mehri, K. Kumar, I. Gulrajani, R. Kumar, S. Jain, J. Sotelo, A. C. Courville, and Y. Bengio. Samplernn: An un- conditional end-to-end neural audio generation model. ICLR, 2016. ↩
A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. W. Senior, and K. Kavukcuoglu. Wavenet: A generative model for raw au- dio. ↩
J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei- Fei. Imagenet: A large-scale hierarchical image database. In CVPR, ↩
K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. ICLR, 2015. ↩
Reference
이 문제에 관하여(Visual to Sound:Generating Natural Sound for Videos in the Wild), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/kafuka/items/63cdea6c56145b2180e8
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
Reference
이 문제에 관하여(Visual to Sound:Generating Natural Sound for Videos in the Wild), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/kafuka/items/63cdea6c56145b2180e8텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)