심층 학습. DeepMind(Google)의 Perceiver의 코코가 신경이 쓰인다.

개요



다음 DeepMind (Google)의 Perceiver,

Jaegle, A., Gimeno, F., Brock, A., Zisserman, A., Vinyals, O., & Carreira, J. (2021). Perceiver: General perception with iterative attention. arXiv preprint arXiv:2103.03206.

Perceiver: General Perception with Iterative Attention
htps : // 아 rぃ v. rg/아bs/2103.03206

에 관하여, 걱정되는 것을 메모한다.

신경이 쓰이는 것



Discussion의 기재 내용



하기의 인용에 있어서, 「모더리티 고유의 사전 지식의 양을 줄이고 있습니다」라고 있지만, 무리하게 줄이거나, 줄이는 것을 항상 좋은 일이라고 생각하면,,,, 가웃한 일이 될 것 같다.
(소리와 영상과 언어와 다르게 좋지 않다. 영상과 언어의 공통성은, 물론, 전체로 하면, 좁은 범위가 되는 편이 옳다고 생각한다.)

Discussion의 기재 내용은, 인용하면 이하.

우리는 100,000개 이상의 입력을 지원하는 Transformer 기반 모델인 Perceiver를 발표했습니다. 이를 통해 입력에 대한 가정이 적고 모든 센서 구성을 처리할 수 있으며 모든 수준의 정보를 융합할 수 있는 일반적인 지각 아키텍처를 위한 새로운 방법이 열립니다. 큰 유연성에는 큰 오버 피팅이 포함되어 있지만, 우리의 설계 결정의 대부분은이 문제를 완화하기 위해 이루어졌습니다. 앞으로는 매우 큰 데이터를 사용하여 이미지 분류 모델을 사전에 학습하고자 합니다(Dosovitskiy et al. 2021). 대규모 AudioSet 데이터세트에서 170만 건의 예가 있었으며 Perceiver는 오디오, 비디오 및 둘 다의 조합에서 강력한 최신 항목과 충돌하는 결과를 얻었습니다. ImageNet에서 이 모델은 ResNet-50 및 ViT와 동등한 성능을 보였다. 이 논문에서 고려한 모든 다른 양식과 그 조합으로 이러한 모델을 비교하면 전체적으로 Perceiver가 가장 우수합니다. 모델에 포함된 모달리티 고유의 사전지식의 양을 줄이고 있지만, 모달리티 고유의 보강과 위치의 인코딩은 계속 채용하고 있습니다. 엔드 투 엔드의 모달리티에 얽매이지 않는 학습은 여전히 ​​흥미로운 연구의 방향성이다.

github 및 기타 구현 샘플 공개



구체적인 트레이닝이나, 추론을 실행할 수 있는, 실장 샘플등이, github라든지에, 널리 나돌게 되면, 고조되는 생각이 든다! ! !

도 3의 설명



이 설명은, 과연, 이상하다고 생각한다.
(↑↑↑ 누군가, 찬동해 주었으면 좋겠다... )

푸리에 하고 있을 뿐이므로, 원래의 그림이 남아 있을 뿐이라고 생각합시다.
개의 왼쪽 앞다리라든지, 전혀, 쫓지 않고.

이하, 인용.

시각화된 어텐션 맵은 입력 이미지에 겹쳐서 표시되지 않습니다. 겉보기 이미지 구조는 어텐션 맵 자체에 존재합니다 (첫 번째 모듈의 어텐션 맵 중 일부는 개가 명확하게 보입니다).



요약



특히 없음.

관련 기사(본인)



심층 학습. DeepMind (Google)의 Perceiver (2021.06.23)는 재미있을 것 같다. 단지, 이미 어렵습니다.

DeepMind(Google)의 Perceiver 기사에서 알기 쉬운 생각한 기사 N선택(아직, N=2)

좋은 웹페이지 즐겨찾기