[Week 3-1] ๐Ÿ’ก๋”ฅ ๋Ÿฌ๋‹ ๊ธฐ์ดˆ

3์ฃผ์ฐจ ์›”์š”์ผ

  • ๋”ฅ ๋Ÿฌ๋‹ ๊ธฐ๋ณธ ์šฉ์–ด
  • ๋”ฅ ๋Ÿฌ๋‹์˜ ์—ญ์‚ฌ

๐Ÿ“[๋”ฅ ๋Ÿฌ๋‹ ๊ธฐ๋ณธ ์šฉ์–ด]

๋”ฅ ๋Ÿฌ๋‹์— ํ•„์š”ํ•œ ๊ฒƒ์€?

+ ๋ชจ๋ธ์ด ํ•™์Šตํ•  ๋ฐ์ดํ„ฐ
+ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•  ๋ชจ๋ธ
+ ๋ชจ๋ธ์ด ์ž˜ ํ•™์Šตํ–ˆ๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์ง€ํ‘œ์ธ ์†์‹ค ํ•จ์ˆ˜
+ ์†์‹ค ํ•จ์ˆ˜์˜ ๊ฐ’์ด ์ค„์–ด๋“ค๋„๋ก ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜
  • ์†์‹ค ํ•จ์ˆ˜
    ์‹ค์ œ ๊ฐ’๊ณผ ์˜ˆ์ธก๊ฐ’์˜ ์ฐจ์ด๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ํ•จ์ˆ˜๋กœ, ๋ชจ๋ธ์„ ์–ด๋Š ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šต์‹œํ‚ฌ ๊ฒƒ์ธ๊ฐ€, ์–ด๋–ป๊ฒŒ ์—…๋ฐ์ดํŠธํ•  ๊ฒƒ์ธ๊ฐ€๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ์ง€ํ‘œ
    • ํšŒ๊ท€ ๋ฌธ์ œ : MSE (Mean Square Error)
    • ๋ถ„๋ฅ˜ ๋ฌธ์ œ : CE (Crossentropy Error)
    • ํ™•๋ฅ ๋ก  ๋ฌธ์ œ : MLE (Maximum Likelyhood Error)

์†์‹ค ํ•จ์ˆ˜๋Š” ์šฐ๋ฆฌ๊ฐ€ ์ด๋ฃจ๊ณ ์ž ํ•˜๋Š” ๋ชฉ์ ์ด ์•„๋‹ˆ๋‹ค
์†์‹ค ํ•จ์ˆ˜๋Š” ๋ชฉํ‘œ๋ผ๊ธฐ๋ณด๋‹ค๋Š” ์ฒ™๋„์ด์ž ๊ทผ์‚ฌ์น˜๋‹ค. ๋ฌธ์ œ์— ๋”ฐ๋ผ ์ „ํ˜•์ ์ธ ์†์‹ค ํ•จ์ˆ˜๊ฐ€ ์žˆ์ง€๋งŒ, ๋ฐ์ดํ„ฐ ์ƒํ™ฉ์— ๋”ฐ๋ผ ๋‹ค๋ฅธ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒŒ ๋‚˜์„ ์ˆ˜๋„ ์žˆ๋‹ค.

ex) ์„ ํ˜• ํšŒ๊ท€ ๋ชจ๋ธ์„ ๋งŒ๋“œ๋Š”๋ฐ, ๋ฐ์ดํ„ฐ์— ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์€ ๊ฒฝ์šฐ
MSE๋ฅผ ์‚ฌ์šฉํ•  ๊ฒฝ์šฐ ๋…ธ์ด์ฆˆ๊ฐ€ ์ฆํญ๋  ์ˆ˜๋„ ์žˆ๋‹ค. ์ด๋Ÿด ๋•Œ๋Š” ์˜คํžˆ๋ ค ์ ˆ๋Œ€๊ฐ’์˜ค์ฐจ๊ฐ€ ๋‚˜์„ ์ˆ˜๋„.

  • ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜
    ์†์‹ค ํ•จ์ˆ˜๊ฐ€ ์ตœ์†Œํ™”๋˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜์™€ ๋ฐ”์ด์–ด์Šค(ํŒŒ๋ผ๋ฏธํ„ฐ)๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๊ณ , ๋ชจ๋ธ์ด ์ฒ˜์Œ ๋ณด๋Š” ๋ฐ์ดํ„ฐ์—์„œ๋„ ์ž˜ ๋™์ž‘ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šต์‹œํ‚ค๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜.
    ์š”์ฆ˜์€ ๋Œ€๊ฐœ ์–ด๋Š ์ƒํ™ฉ์— ์จ๋„ ์„ฑ๋Šฅ์ด ๊ดœ์ฐฎ๊ฒŒ ๋‚˜์˜ค๋Š” Adam์„ ์‚ฌ์šฉํ•œ๋‹ค. Adam์˜ ๋“ฑ์žฅ์€ ์—ฐ์‚ฐ ์ž์›์ด ๋ถ€์กฑํ•ด์„œ ๋‹ค์–‘ํ•œ ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ผ์ผ์ด ํ…Œ์ŠคํŠธํ•ด ๋ณผ ์ˆ˜ ์—†๋Š” ๊ฐœ์ธ์ด๋‚˜ ์ž‘์€ ์—ฐ๊ตฌ์‹ค ์ž…์žฅ์—์„œ๋Š” ํ˜๋ช…์ด์—ˆ๋‹ค๊ณ  ํ•œ๋‹ค.

๐Ÿ“š[๋”ฅ ๋Ÿฌ๋‹์˜ ์—ญ์‚ฌ]

Deep Learning's Most Important Ideas - A Brief Historical Review
Denny Britz, 2020

  • 2012 AlexNet
    CNN ๊ตฌ์กฐ, ์ตœ์ดˆ๋กœ ๋”ฅ ๋Ÿฌ๋‹์„ ์ด์šฉํ•ด ImageNet ๋Œ€ํšŒ 1๋“ฑ

  • 2013 DQN
    ์•ŒํŒŒ๊ณ ๋ฅผ ๊ฐœ๋ฐœํ•œ DeepMind์˜ "Playing Atari with Deep Reinforcement Learning" ๋…ผ๋ฌธ์— ์†Œ๊ฐœ๋œ ๊ตฌ์กฐ, ๊ฐ•ํ™” ํ•™์Šต์˜ ๋“ฑ์žฅ

  • 2014 Encoder/Decoder (Seq2Seq)
    RNN ์ค‘ ํ•˜๋‚˜์ธ LSTM์„ ์ด์šฉํ•จ. ๊ธฐ๊ณ„ ๋ฒˆ์—ญ์„ ์œ„ํ•ด ๊ณ ์•ˆ๋œ ๋ชจ๋ธ.

  • 2014 Adam Optimizer
    ์–ด๋””์— ์จ๋„ ์›ฌ๋งŒํ•˜๋ฉด ์ž˜ ๋Œ์•„๊ฐ€๋Š” ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜.

  • 2015 GAN
    ์ด๋ฏธ์ง€๋‚˜ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ. ์ƒ์„ฑ/ํŒ๋ณ„์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋‘ ๊ฐœ์˜ ๋ชจ๋ธ์ด ๊ฒฝ์Ÿ์„ ๋ฐ˜๋ณตํ•˜๋ฉด์„œ ์ ์  ๋” ์ง„์งœ ๊ฐ™์€ ๊ฒฐ๊ณผ๋ฌผ์„ ์ƒ์„ฑํ•œ๋‹ค.

  • 2015 ResNet
    ์ด์ „์˜ ๋ ˆ์ด์–ด๋“ค์„ ๋‹ค์‹œ ์ด์šฉํ•ด ๋„คํŠธ์›Œํฌ๋ฅผ ๊นŠ๊ฒŒ ์Œ“์•„๋„ ๊ณผ์ ํ•ฉ์ด ๋ฐœ์ƒํ•˜์ง€ ์•Š๊ณ  ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋„๋ก ํ•œ CNN ๋ชจ๋ธ.

  • 2017 Transformer
    2017๋…„ ๊ตฌ๊ธ€์ด ๋ฐœํ‘œํ•œ "Attention is all you need" ๋…ผ๋ฌธ์— ์†Œ๊ฐœ๋จ. ์–ดํ…์…˜ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•ด ์ž์—ฐ์–ด๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ชจ๋ธ.

  • 2018 BERT
    fine-tuning์„ ์œ„ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ชจ๋ธ๋กœ, ๋‹จ์–ด์‚ฌ์ „์— BERT ๋ชจ๋ธ์„ ์ ์šฉ, ๊ทธ ์ถœ๋ ฅ์„ ๋‹ค๋ฅธ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ชจ๋ธ์˜ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•œ๋‹ค.

  • 2019 GPT-3
    ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋Œ€์šฉ๋Ÿ‰ ์–ธ์–ด ์ฒ˜๋ฆฌ ๋ชจ๋ธ.

  • 2020 SimCLR
    Self-supervised learning(์ž๊ธฐ์ง€๋„ํ•™์Šต)์ด ๊ฐ€๋Šฅํ•œ ๋ชจ๋ธ๋กœ, unlabeled ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šต์— ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.


๐Ÿ‘จโ€๐Ÿ‘ฉโ€๐Ÿ‘งโ€๐Ÿ‘ฆ[ํ”ผ์–ด ์„ธ์…˜]

์ง€๋‚œ ์ฃผ์— ํŒ€์›๋“ค๊ณผ ํ˜‘์˜ํ•œ ๋Œ€๋กœ ์˜ค๋Š˜์€ 5์‹œ์— ์‹œ์ž‘ํ–ˆ๋‹ค. ๊ฐ•์˜ ๋‚ด์šฉ์„ ์ „๋ถ€ ์†Œํ™”ํ•˜๊ณ  ๋งŒ๋‚˜๋ ค๊ณ  ํ–ˆ์ง€๋งŒ colab๊ณผ vs code๋ฅผ ์—ฐ๋™ํ•˜๋Š” ๋ฐ ์‹œ๊ฐ„์„ ์—„์ฒญ๋‚˜๊ฒŒ ์จ ๋ฒ„๋ ค์„œ ๊ฐ•์˜๋ฅผ ๋งŽ์ด ๋“ฃ์ง€ ๋ชปํ–ˆ๋‹ค. ๋ถ„๋ช… ๋‹จ๊ณ„๋ณ„๋กœ ๋”ฐ๋ผ ํ–ˆ๋Š”๋ฐ... ํ•œ์ฐธ ์”จ๋ฆ„ํ•˜๋‹ค๊ฐ€ ์•„์˜ˆ ๋‹ค ์‚ญ์ œํ•˜๊ณ  ๋‹ค์‹œ ๊น”์•„์„œ ๋˜๊ธด ๋๋‹ค.

์ข‹์€ ์›นํŽ˜์ด์ง€ ์ฆ๊ฒจ์ฐพ๊ธฐ