BERT ๊ฐœ๋…

5980 ๋‹จ์–ด BERTBERT

1. BERT์˜ ๊ธฐ๋ณธ ๊ฐœ๋…

BERT(Bidirectional Encoder Representation from Transformer)๋Š” ๊ตฌ๊ธ€์—์„œ ๋ฐœํ‘œํ•œ ์ž„๋ฒ ๋”ฉ ๋ชจ๋ธ์ด๋‹ค. ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋Œ€๋‹ต, ํ…์ŠคํŠธ ์ƒ์„ฑ, ๋ฌธ์žฅ ๋ถ„๋ฅ˜ ๋“ฑ๊ณผ ๊ฐ™์€ ํƒœ์Šคํฌ์—์„œ ๊ฐ€์žฅ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋„์ถœํ•ด ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ถ„์•ผ์— ํฌ๊ฒŒ ๊ธฐ์—ฌํ•ด์™”๋‹ค.

A ๋ฌธ์žฅ : He got bit by Python (ํŒŒ์ด์ฌ์ด ๊ทธ๋ฅผ ๋ฌผ์—ˆ๋‹ค)
B ๋ฌธ์žฅ : Python is my favorite programming language(๋‚ด๊ฐ€ ๊ฐ€์žฅ ์ข‹์•„ํ•˜๋Š” ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด๋Š” ํŒŒ์ด์ฌ์ด๋‹ค)

์œ„ ๋‘ ๋ฌธ์žฅ์—์„œ ํŒŒ์ด์ฌ์ด๋ผ๋Š” ๋‹จ์–ด์˜ ์˜๋ฏธ๋Š” ๋‹ค๋ฅด๊ฒŒ ์ ์šฉ๋œ๋‹ค. word2vec๊ณผ ๊ฐ™์€ ์ž„๋ฒ ๋”ฉ์„ ๋™์ผํ•œ ๋‹จ์–ด์ด๊ธฐ ๋•Œ๋ฌธ์— ๋™์ผํ•˜๊ฒŒ ํ‘œํ˜„์ด ๋œ๋‹ค. BERT๋Š” word2vec๊ณผ ๋‹ค๋ฅด๊ฒŒ ๋ฌธ๋งฅ ๋…๋ฆฝ ๋ชจ๋ธ์ด ์•„๋‹Œ ๋ฌธ๋งฅ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์ด๊ธฐ ๋•Œ๋ฌธ์— ๋ฌธ์žฅ์˜ ๋ฌธ๋งฅ์„ ์ดํ•ดํ•œ ๋‹ค์Œ ๋ฌธ๋งฅ์— ๋”ฐ๋ผ ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ์„ ์ƒ์„ฑํ•œ๋‹ค.

2. BERT์˜ ๋™์ž‘ ๋ฐฉ์‹

BERT๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉฐ, ์ธ์ฝ”๋”-๋””์ฝ”๋” ํ˜•ํƒœ๊ฐ€ ์•„๋‹Œ ์ธ์ฝ”๋”๋งŒ ์‚ฌ์šฉํ•œ๋‹ค.

BERT ๊ตฌ์กฐ

3. BERT ๊ตฌ์กฐ

  • ์ธ์ฝ”๋” ๋ ˆ์ด์–ด ์ˆ˜๋Š” L๋กœ ํ‘œ์‹œ
  • ์–ดํ…์…˜ ํ—ค๋“œ๋Š” A๋กœ ํ‘œ์‹œ
  • ํžˆ๋“  ์œ ๋‹›์€ H๋กœ ํ‘œ์‹œ

3.1. BERT-base

BERT-base๋Š” 12๊ฐœ์˜ ์ธ์ฝ”๋” ๋ ˆ์ด์–ด๊ฐ€ ์Šคํƒ์ฒ˜๋Ÿผ ์Œ“์ธ ํ˜•ํƒœ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค. ๋ชจ๋“  ์ธ์ฝ”๋”๋Š” 12๊ฐœ์˜ ์–ดํ…์…˜ ํ—ค๋“œ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ธ์ฝ”๋”์˜ ํ”ผ๋“œํฌ์›Œ๋“œ ๋„คํŠธ์›Œํฌ๋Š” 768๊ฐœ ์ฐจ์›์˜ ํ—ค๋“  ์œ ๋‹›์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค.
L = 12, A = 12, H = 768

3.2. BERT-lage

BERT-lage๋Š” 24์˜ ์ธ์ฝ”๋” ๋ ˆ์ด์–ด๊ฐ€ ์Šคํƒ์ฒ˜๋Ÿผ ์Œ“์ธ ํ˜•ํƒœ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค. ๋ชจ๋“  ์ธ์ฝ”๋”๋Š” 16๊ฐœ์˜ ์–ดํ…์…˜ ํ—ค๋“œ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ธ์ฝ”๋”์˜ ํ”ผ๋“œํฌ์›Œ๋“œ ๋„คํŠธ์›Œํฌ๋Š” 1024๊ฐœ ์ฐจ์›์˜ ํ—ค๋“  ์œ ๋‹›์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค.
L = 24, A = 16, H = 1024

3.3. ๊ทธ๋ฐ–์˜ ์—ฌ๋Ÿฌ BERT ๊ตฌ์กฐ

  • BERT-tiny : L = 2, A = 2, H = 128
  • BERT-mini : L = 4, A = 4, H = 256
  • BERT-small : L = 4, A = 8, H = 521
  • BERT-medium : L = 8, A = 8, H = 521

4. BERT์˜ pre-trained

๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ฌ๋•Œ ํŠน์ • ํƒœ์Šคํฌ์— ๋Œ€ํ•œ ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๋ชจ๋ธ์„ ์‹œํ‚ค๊ณ  ํ•™์Šต๋œ ๋ชจ๋ธ์„ ์ €์žฅํ•œ๋‹ค. ์ƒˆ ํƒœ์Šคํฌ๊ฐ€ ์ฃผ์–ด์ง€๋ฉด ์ž„์˜ ๊ฐ€์ค‘์น˜๋กœ ๋ชจ๋ธ์„ ์ดˆ๊ธฐํ™”ํ•˜๋Š” ๋Œ€์‹  ์ด๋ฏธ ํ•™์Šต๋œ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋กœ ๋ชจ๋ธ์„ ์ดˆ๊ธฐํ™”ํ•œ๋‹ค. ๋ชจ๋ธ์ด ์ด๋ฏธ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์— ํ•™์Šต๋˜์–ด์žˆ์œผ๋ฏ€๋กœ ์ƒˆ ํƒœ์Šคํฌ๋ฅผ ์œ„ํ•ด ์ƒˆ๋กœ์šด ๋ชจ๋ธ๋กœ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šต์‹œํ‚ค๋Š” ๋Œ€์‹  ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๊ณ  ์ƒˆ๋กœ์šด ํƒœ์Šคํฌ์— ๋”ฐ๋ผ ๊ฐ€์ค‘์น˜๋ฅผ ์กฐ์ •(fine tuning)ํ•œ๋‹ค.

BERT๋Š” MLM(Masked Language Model)๊ณผ NSP(Next Sentence Prediction)๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ํƒœ์Šคํฌ๋ฅผ ์ด์šฉํ•ด ๊ฑฐ๋Œ€ํ•œ ๋ง๋ญ‰์น˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์‚ฌ์ „ ํ•™์Šต๋œ๋‹ค. ์‚ฌ์ „ ํ•™์Šต ํ›„ ์‚ฌ์ „ ํ•™์Šต๋œ BERT๋ฅผ ์ €์žฅํ•ด๋‘๊ณ , ์ƒˆ๋กœ์šด ํƒœ์Šคํฌ๊ฐ€ ์ฃผ์–ด์งˆ ๊ฒฝ์šฐ BERT๋ฅผ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šต์‹œํ‚ค๋Š” ๋Œ€์‹  ์‚ฌ์ „ ํ•™์Šต๋œ BERT๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

4.1. BERT์˜ ์ž…๋ ฅ ํ‘œํ˜„

BERT์— ๋ฐ์ดํ„ฐ๋ฅผ ์ž…๋ ฅํ•˜๊ธฐ ์ „์— ์„ธ ๊ฐ€์ง€ ์ž„๋ฒ ๋”ฉ ๋ ˆ์ด์–ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ๋ณ€ํ™˜ํ•ด์•ผ ํ•œ๋‹ค.

  • ํ† ํฐ ์ž„๋ฒ ๋”ฉ(token embedding)
  • ์„ธ๊ทธ๋จผํŠธ ์ž„๋ฒ ๋”ฉ(segment embedding)
  • ์œ„์น˜ ์ž„๋ฒ ๋”ฉ(position embedding)

4.1.1. ํ† ํฐ ์ž„๋ฒ ๋”ฉ

๊ธฐ๋ณธ์ ์œผ๋กœ ํŠธ๋žœ์Šคํฌ๋จธ์™€ ๊ฐ™์ด ๋‹จ์–ด๋ฅผ ํ† ํฐํ™”ํ•œ๋‹ค.

A : Paris is a beautiful city
B : I love paris
tokens = [Paris, is , a, beautiful, city, I, love, Paris]

๊ทธ ํ›„ ์ฒซ ๋ฒˆ์งธ ๋ฌธ์žฅ์˜ ์‹œ์ž‘ ๋ถ€๋ถ„์—๋งŒ [CLS] ํ† ํฐ์ด๋ผ๋Š” ์ƒˆ ํ† ํฐ์„ ์ถ”๊ฐ€ํ•œ๋‹ค.

token = [[CLS], Paris, is , a, beautiful, city, I, love, Paris]

๊ทธ๋Ÿฐ ๋‹ค์Œ ๋ชจ๋“  ๋ฌธ์žฅ ๋์— [SEP]๋ผ๋Š” ํ† ํฐ์„ ์ถ”๊ฐ€ํ•œ๋‹ค.

token = [[CLS], Paris, is , a, beautiful, city, [SEP], I, love, Paris, [SEP]]

[CLS] ํ† ํฐ์€ ๋ถ„๋ฅ˜ ์ž‘์—…์— ์‚ฌ์šฉ๋˜๋ฉฐ, [SEP] ํ† ํฐ์€ ๋ชจ๋“  ๋ฌธ์žฅ์˜ ๋์„ ๋‚˜ํƒ€๋‚ด๋Š”๋ฐ ์‚ฌ์šฉ๋œ๋‹ค.

4.1.2. ์„ธ๊ทธ๋จผํŠธ ์ž„๋ฒ ๋”ฉ

์„ธ๊ทธ๋จผํŠธ ์ž„๋ฒ ๋”ฉ์€ ์ฃผ์–ด์ง„ ๋‘ ๋ฌธ์žฅ์„ ๊ตฌ๋ถ„ํ• ๋•Œ ์‚ฌ์šฉ๋œ๋‹ค.

์„ธ๊ทธ๋จผํŠธ ์ž„๋ฒ ๋”ฉ

4.1.3. ์œ„์น˜ ์ž„๋ฒ ๋”ฉ

ํŠธ๋žœ์Šคํฌ๋จธ์˜ ํฌ์ง€์…˜ ์ธ์ฝ”๋”ฉ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋“  ๋‹จ์–ด๋ฅผ ๋ณ‘๋ ฌ๋กœ ์ฒ˜๋ฆฌํ•œ๋‹ค. BERT๋Š” ๋ณธ์งˆ์ ์œผ๋กœ ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์ธ์ฝ”๋”์ด๋ฏ€๋กœ BERT ๋ฐ์ดํ„ฐ๋ฅผ ์ง์ ‘ ์ž…๋ ฅํ•˜๊ธฐ ์ „์— ๋ฌธ์žฅ์—์„œ ํ† ํฐ์˜ ์œ„์น˜์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•ด์•ผํ•œ๋‹ค.

4.1.4. ์ž…๋ ฅ ๋ฐ์ดํ„ฐ

์ž…๋ ฅ ๋ฐ์ดํ„ฐ

์ตœ์ข…์ ์œผ๋กœ BERT๋Š” ์ฃผ์–ด์ง„ ๋ฌธ์žฅ์„ ํ† ํฐ์œผ๋กœ ๋ณ€ํ™˜ํ•˜๊ณ  ํ† ํฐ์„ ํ† ํฐ ์ž„๋ฒ ๋”ฉ, ์„ธ๊ทธ๋จผํŠธ ์ž„๋ฒ ๋”ฉ, ์œ„์น˜ ์ž„๋ฒ ๋”ฉ ๋ ˆ์ด์–ด์— ๋„ฃ๊ณ  ์ž„๋ฒ ๋”ฉ์„ ์–ป๋Š”๋‹ค. ๊ทธ ๋‹ค์Œ ๋ชจ๋“  ์ž„๋ฒ ๋”ฉ์„ ํ•ฉ์‚ฐํ•ด BERT์— ์ž…๋ ฅ์œผ๋กœ ์ œ๊ณตํ•œ๋‹ค.

4.2. ์‚ฌ์ „ ํ•™์Šต ์ „๋žต

BERT๋Š” ๋‘ ๊ฐ€์ง€ ํƒœ์Šคํฌ์— ๋Œ€ํ•ด ์‚ฌ์ „ ํ•™์Šต๋œ๋‹ค.

  • ๋งˆ์Šคํฌ ์–ธ์–ด ๋ชจ๋ธ๋ง(MLM)
  • ๋‹ค์Œ ๋ฌธ์žฅ ์˜ˆ์ธก(NSP)

4.2.1. ์–ธ์–ด ๋ชจ๋ธ๋ง

์–ธ์–ด ๋ชจ๋ธ๋ง์€ ์ผ๋ฐ˜์ ์œผ๋กœ ์ž„์˜์˜ ๋ฌธ์žฅ์ด ์ฃผ์–ด์ง€๊ณ  ๋‹จ์–ด๋ฅผ ์ˆœ์„œ๋Œ€๋กœ ๋ณด๋ฉด์„œ ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋„๋ก ํ•™์Šต์‹œํ‚จ๋‹ค.

  • ์ž๋™ ํšŒ๊ท€ ์–ธ์–ด ๋ชจ๋ธ๋ง(auto-regressive language modeling)
  • ์ž๋™ ์ธ์ฝ”๋”ฉ ์–ธ์–ด ๋ชจ๋ธ๋ง(auto-encding language modeling)

์ž๋™ ํšŒ๊ท€ ์–ธ์–ด ๋ชจ๋ธ๋ง์€ ๋‘ ๊ฐ€์ง€ ๋ฐฉ์‹์œผ๋กœ ๊ตฌ๋ถ„ ํ•  ์ˆ˜ ์žˆ๋‹ค.

  • ์ „๋ฐฉ(์™ผ์ชฝ์—์„œ ์˜ค๋ฅธ์ชฝ) ์˜ˆ์ธก(forward prediction)
  • ํ›„๋ฐฉ(์˜ค๋ฅธ์ชฝ์—์„œ ์™ผ์ชฝ) ์˜ˆ์ธก(backward prediction)
Paris is a beautiful ___. I love Paris.

๋ชจ๋ธ์€ ๊ณต๋ฐฑ์„ ์˜ˆ์ธกํ•ด์•ผ ํ•œ๋‹ค. ์ „๋ฐฉ ์˜ˆ์ธก์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ ๋ชจ๋ธ์€ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์™ผ์ชฝ์—์„œ ์˜ค๋ฅธ์ชฝ์œผ๋กœ ๊ณต๋ฐฑ๊นŒ์ง€ ๋ชจ๋“  ๋‹จ์–ด๋ฅผ ์ฝ๋Š”๋‹ค.

Paris is a beautiful ___.

ํ›„๋ฐฉ ์˜ˆ์ธก์„ ์‚ฌ์šฉํ•˜๋ฉด ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•ด ๋ชจ๋ธ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์˜ค๋ฅธ์ชฝ์—์„œ ์™ผ์ชฝ์œผ๋กœ ๊ณต๋ฐฑ๊นŒ์ง€ ๋ชจ๋“  ๋‹จ์–ด๋ฅผ ์ฝ๋Š”๋‹ค.

___. I love Paris.

์ž๋™ ์ธ์ฝ”๋”ฉ ์–ธ์–ด ๋ชจ๋ธ๋ง์€ ์ „๋ฐฉ ๋ฐ ํ›„๋ฐฉ ์˜ˆ์ธก์„ ๋ชจ๋‘ ํ™œ์šฉํ•œ๋‹ค. ์˜ˆ์ธก์„ ํ•˜๋ฉด์„œ ์–‘๋ฐฉํ–ฅ์œผ๋กœ ๋ฌธ์žฅ์„ ์ฝ๋Š”๋‹ค.

Paris is a beautiful ___. I love Paris.

4.2.2. ๋งˆ์Šคํฌ ์–ธ์–ด ๋ชจ๋ธ๋ง(MLM)

๋งˆ์Šคํฌ ์–ธ์–ด ๋ชจ๋ธ๋ง์—๋Š” 80%-10%-10% ๊ทœ์น™์„ ์ ์šฉํ•œ๋‹ค. ๋ฌธ์žฅ์—์„œ ํ† ํฐ์˜ 15%๋ฅผ ๋ฌด์ž‘์œ„๋กœ ๋งˆ์Šคํ‚น์„ ํ•œ๋‹ค.

  • 15% ์ค‘ 80% ํ† ํฐ์„ [MASK] ํ† ํฐ์œผ๋กœ ๊ต์ฒด
token = [[CLS], Paris, is , a, beautiful, [MASK], [SEP], I, love, Paris, [SEP]]
  • 15% ์ค‘ 10% ํ† ํฐ์„ ์ž„์ž„์˜ ํ† ํฐ์œผ๋กœ ๊ต์ฒด
token = [[CLS], Paris, is , a, beautiful, love, [SEP], I, love, Paris, [SEP]]
  • 15% ์ค‘ ๋‚˜๋จธ์ง€ 10% ํ† ํฐ์€ ์–ด๋– ํ•œ ๋ณ€๊ฒฝ๋„ ํ•˜์ง€ ์•Š๋Š”๋‹ค
token = [[CLS], Paris, is , a, beautiful, city, [SEP], I, love, Paris, [SEP]]
๋งˆ์Šคํฌ ์–ธ์–ด ๋ชจ๋ธ๋ง

์œ„ ๊ทธ๋ฆผ์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด 'city'๋ผ๋Š” ๋‹จ์–ด๊ฐ€ ๋งˆ์Šคํฌ๋œ ๋‹จ์–ด์ผ ํ™•๋ฅ ์ด ๋†’๋‹ค. ์ด ๊ฒฝ์šฐ ๋งˆ์Šคํฌ๋œ ๋‹จ์–ด๋Š” 'city'๋กœ ์˜ˆ์ธกํ•œ๋‹ค.
๋งˆ์Šคํฌ ์–ธ์–ด ๋ชจ๋ธ๋ง ํƒœ์Šคํฌ๋Š” ๋นˆ์นธ ์ฑ„์šฐ๊ธฐ ํƒœ์Šคํฌ(cloze task)๋ผ๊ณ ๋„ ํ•œ๋‹ค.

4.2.3. ๋‹ค์Œ ๋ฌธ์žฅ ์˜ˆ์ธก(NSP)

๋‹ค์Œ ๋ฌธ์žฅ ์˜ˆ์ธก์€ BERT ํ•™์Šต์— ์‚ฌ์šฉ๋˜๋Š” ์ด์ง„ ๋ถ„๋ฅ˜ ํ…Œ์ŠคํŠธ๋‹ค. BERT์— ๋‘ ๋ฌธ์žฅ์„ ์ž…๋ ฅํ•˜๊ณ  ๋‘ ๋ฒˆ์งธ ๋ฌธ์žฅ์ด ์ฒซ ๋ฒˆ์งธ ๋ฌธ์žฅ์˜ ๋‹ค์Œ ๋ฌธ์žฅ์ธ์ง€ ์˜ˆ์ธกํ•œ๋‹ค.

๋ฌธ์žฅ ์Œ๋ ˆ์ด๋ธ”
She cooked pasta(๊ทธ๋…€๋Š” ํŒŒ์Šคํƒ€๋ฅผ ์š”๋ฆฌํ–ˆ๋‹ค)
It was delicious(๋ง›์žˆ์—ˆ๋‹ค)
isNext
Jack loves songwriting(์žญ์€ ์ž‘๊ณก์„ ์ข‹์•„ํ•œ๋‹ค)
He wrote a new song(๊ทธ๋Š” ์ƒˆ ๋…ธ๋ž˜๋ฅผ ์ผ๋‹ค)
isNext
Birds fly in the sky(์ƒˆ๋“ค์€ ํ•˜๋Š˜์„ ๋‚œ๋‹ค)
He was reading(๊ทธ๋Š” ์ฝ๊ณ  ์žˆ์—ˆ๋‹ค)
notNext
Turn the radio on(๋ผ๋””์˜ค ์ผœ์ค˜)
She bought a new hat(๊ทธ๋…€๋Š” ์ƒˆ ๋ชจ์ž๋ฅผ ์ƒ€๋‹ค)
notNext
tokens = [[CLS], She, cooked, pasta, [SEP], It, was, delicious, [SEP]]
๋‹ค์Œ ๋ฌธ์žฅ ์˜ˆ์ธก

[CLS] ํ† ํฐ์€ ๊ธฐ๋ณธ์ ์œผ๋กœ ๋ชจ๋“  ํ† ํฐ์˜ ์ง‘๊ณ„ ํ‘œํ˜„์„ ๋ณด์œ ํ•˜๊ณ  ์žˆ์œผ๋ฏ€๋กœ ๋ฌธ์žฅ ์ „์ฒด์— ๋Œ€ํ•œ ํ‘œํ˜„์„ ๋‹ด๊ณ  ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋‹ค๋ฅธ ๋ชจ๋“  ํ† ํฐ์˜ ํ‘œํ˜„์„ ๋ฌด์‹œํ•˜๊ณ  [CLS] ํ† ํฐ์˜ ํ‘œํ˜„์„ ๊ฐ€์ ธ์™€ ์†Œํ”„ํŠธ๋งฅ์Šค ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•ด ์ด์ง„ ๋ถ„๋ฅ˜ํ•œ๋‹ค.

์ข‹์€ ์›นํŽ˜์ด์ง€ ์ฆ๊ฒจ์ฐพ๊ธฐ