Attention 관련. Additive attention과 Dot-product (multiplicative) attention의 비교.

개요



Additive attention과 Dot-product (multiplicative) attention의 비교 방법을 모르기 때문에 기사로 한다.

아래의 Attention is all you need의 논문을 참고한다.

Attention Is All You Need

Vaswani, Ashish, et al. "Attention is all you need."arXiv preprint arXiv:1706.03762 (2017).

비교



논문 인용

The two most commonly used attention functions are additive attention [2], and dot-product (multiplicative) attention.

첫째, 가장 일반적으로 사용되는 것으로,
  • additive attention
  • dot-product (multiplicative) attention

  • 두 가지를 올리고있다.

    다음 비교로서는

    이 두 가지는 이론적 복잡성이 비슷하지만 dot-product attention은 고도로 최적화된 행렬 곱셈 코드를 사용하여 구현할 수 있기 때문에 실제로 더 빠르고 실제로 더 빠릅니다. .

    라고 말했다.
    dot-product (multiplicative) attention은 additive attention에 비해
  • 두 가지는 이론적 인 복잡성이 비슷합니다
  • 고도로 최적화된 행렬 곱셈 코드를 사용해 구현할 수 있다
  • 사실 더 빠릅니다
  • 더 공간 절약


  • 그리고 정리되어 있습니다.
    우선, 후속의, 「dk의 작은 값에서는 2개의 메카니즘은 같은 성능을 나타냅니다만・・・」의 관점은, 여기에서는, 생략합니다.
    ⇒ 포인트로서는, 반대로, 상기 이외의 차이를 언급하고 있지 않는 것에 주목하고 싶습니다.

    자세하지 않은 사람 (와타시)의 입장에서 조금 이해하기 어려운 것은



    additive attention의 피드 포워드 네트워크 부분의 매개 변수를 어떻게 결정합니까? , 언제 배우는 것, 어떤 것이 머리에 떠오르지만,
    그런 이야기가 아닐까요,
    아무것도 그런 이야기를 쓰지 않았기 때문에. . .

    도움이 될 것 같은 논문



    다음 논문

    Effective Approaches to Attention-based Neural Machine Translation

    Luong, Minh-Thang, Hieu Pham, and Christopher D. Manning. "Effective approaches to attention-based neural machine translation."

    그럼, 이 근처의 것이,
    dot, general, concat이라는 형태로 나열되어 있습니다.



    ⇒무엇과 무엇을 어떤 관점에서 비교하는지가, 뭐든지 너무 있어, 어려운 세계다--라고 생각했습니다.

    요약



    특히 없습니다.
    이 기사는 높고 위화감? 공유할 수 있을 정도의 기대로 쓴 기사입니다.

    관련 기사(본인)



    자기주의 Self-Attention 의 해설로 알기 쉽다고 생각한 기사N선택(N=13)

    좋은 웹페이지 즐겨찾기