Visual to Sound:Generating Natural Sound for Videos in the Wild

5594 단어 기계 학습
Zhou, Y., Wang, Z., Fang, C., Bui, T., & Berg, T. L. (n.d.). Visual to Sound: Generating Natural Sound for Videos in the Wild.CVPR2018 Retrieved from https://arxiv.org/pdf/1712.01393.pdf

1. 어떤 물건?


비디오 입력 및 사운드 생성

2. 선행 연구에 비해 어디가 센가?


완전히 새로 소리를 만드는 새로운 시도?

3. 기술과 기법의 관건은 어디에 있는가?


Visually Engaged and Grounded AudioSet (VEGAS)


사운드 및 영상의 데이터 세트로 Audio Set을 사용합니다.
이렇게 되면 배경의 소리가 주요 소리를 방해하고 음원은 프레임 밖에 잘못 분류된 것을 포함하기 때문에 그 중에서 10개의 종류를 선택하여 데이터 집합을 새로 만들었다.
범주:
아기 울음소리, 코골이, 개, 물살, 불꽃놀이, 철도, 프린터, 북, 헬리콥터, 체인톱
데이터 예: 프레임 이미지와 사운드 데이터의 위치와 동일한 색상의 부분

Sound generator


적절한 품질을 확보하기 위해 16kHz의 사운드를 생성합니다.
따라서 매우 긴 시퀀스를 생성할 수 있는 SampleRNN을 사용합니다.
SamplerNN은 계층적으로 구축된 회복 신경 네트워크입니다.

아래 층(상세한 층), 앞의 K라는 정보를 제외하고 위의 층(조잡한 층)의 정보도 소리를 생성하는 데 사용된다.
WaveNet은 개 짖는 소리와 같은 소리를 잘 생성하지 못하는 것 같다.

video encoder


세 가지 방법을 사용했습니다.

Frame-to-frame method


위 그림의 녹색 테두리
ImageNet에서 학습한 VGG19를 사용하여 프레임 이미지에서 4096비트 벡터의 특징을 추출합니다.
그림과 같이 Sound generator의 가장 거친 레이어에 입력합니다.

Sequence-to-sequence method


위 그림 빨간색 상자
Frame-to-frame에서 사용되는 VGG의 특징을 Sound generator의 가장 거친 층의 최초 입력으로 사용합니다.

Flow-based method


VGG의 특징은 분류에 사용되는 특징이기 때문에 회전과 이동 등 불변성을 가지고 있다.
그러나 소리를 생성하는 상황에서 미묘한 동작은 개가 짖는 등 소리 생성에도 필요하기 때문에 동작의 정보를 명확하게 도입하기 위해 광학 절차를 사용한다.

4. 어떻게 유효성을 검증합니까?


VEGA 데이터 세트를 사용하여 실험합니다.
애니메이션의 길이가 짧은 것은 10초 동안 반복해서 고정시킵니다.

Qualitative visualization



위에서 아래로 Frame, Sequence, Flow의 방법으로 생성된 소리와 맨 아래는 원시적인 소리
열차가 가까워질수록 소리가 커진다.
불꽃놀이의 흐름 속에서 여분의 소리가 생성되었지만 애니메이션에는 있는 것 같다.
비디오 추가

Numerical evaluation


Loss


평균 교차 엔트로피 평가

Human evaluation experiments


개인 평가
상응하는 동영상과 목소리를 제시하고 가짜인지 아닌지를 물어본 결과다.
7할의 애니메이션에서 진짜로 오해받을 수 있는 소리를 만들 수 있다.

5. 논란이 있습니까?


음성 생성에 사용할 데이터 집합 만들기
생성된 음성은 7명을 속였다
장래에 소리 생성에서 물체의 식별과 추측을 진행하기를 희망한다
J. F. Gemmeke, D. P. W. Ellis, D. Freedman, A. Jansen, W. Lawrence, R. C. Moore, M. Plakal, and M. Ritter. Au- dio set: An ontology and human-labeled dataset for audio events. In ICASSP, 2017. 
S. Mehri, K. Kumar, I. Gulrajani, R. Kumar, S. Jain, J. Sotelo, A. C. Courville, and Y. Bengio. Samplernn: An un- conditional end-to-end neural audio generation model. ICLR, 2016. 
A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. W. Senior, and K. Kavukcuoglu. Wavenet: A generative model for raw au- dio. 
J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei- Fei. Imagenet: A large-scale hierarchical image database. In CVPR, 
K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. ICLR, 2015. 

좋은 웹페이지 즐겨찾기