[🤗 강좌 2.2] Pipeline 내부 실행 과정

본 한글 강좌는 기본적으로 PyTorch를 사용한다고 가정합니다.

이제 완전한 예제로 시작합니다. 우선, 1장에서 다음 코드를 실행했을 때 내부적으로 무슨 일이 일어났는지 살펴보겠습니다.

from transformers import pipeline

classifier = pipeline("sentiment-analysis")
classifier(
    [
        "I've been waiting for a HuggingFace course my whole life.",
        "I hate this so much!",
    ]
)

1장에서 보았듯이 이 파이프라인은 전처리(preprocessing), 모델로 입력 전달 및 후처리(postprocessing)의 3단계를 한번에 실행합니다.

이들 각각에 대해 빠르게 살펴보겠습니다.

Preprocessing with a tokenizer

다른 신경망(neural networks)과 마찬가지로 Transformer 모델은 원시 텍스트를 직접 처리할 수 없으므로 파이프라인의 첫번째 단계는 텍스트 입력을 모델이 이해할 수 있는 숫자로 변환하는 것입니다. 이를 위해, 다음 기능들을 수행하는 토크나이저(tokenizer)를 사용합니다:

입력을 토큰(token) 이라고 부르는 단어(word), 하위 단어(subword) 또는 기호(symbol)(예: 구두점)로 분할
각 토큰(token)을 정수(integer)로 매핑(mapping)
모델에 유용할 수 있는 부가적인 입력(additional inputs)을 추가

이 모든 전처리(preprocessing)는 모델이 사전 학습(pretraining)될 때와 정확히 동일한 방식으로 수행되어야 하므로 먼저 Model Hub에서 해당 정보를 다운로드해야 합니다. 이를 위해 AutoTokenizer 클래스와 from_pretrained() 메서드를 사용합니다. 모델의 체크포인트(checkpoint) 이름을 사용하여 모델의 토크나이저(tokenizer)와 연결된 데이터를 자동으로 가져와 캐시합니다. 따라서, 아래 코드를 처음 실행할 때만 해당 정보가 다운로드됩니다.

sentiment-analysis 파이프라인의 디폴트 체크포인트(default checkpoint)는 distilbert-base-uncased-finetuned-sst-2-english(이 모델에 대한 model card는 여기에서 확인 가능합니다)이므로 다음을 실행합니다.

from transformers import AutoTokenizer

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

일단 위와 같이 토크나이저(tokenizer)를 생성하면, 아래의 코드에서 보는 것처럼, 이 토크나이저에 문장을 입력하여 모델에 바로 전달할 수 있는 파이썬 딕셔너리(dictionary) 정보를 구할 수 있습니다! 이후 해야할 일은 input IDs 리스트를 텐서(tensors)로 변환하는 것뿐입니다.

여러분들은 PyTorch, TensorFlow 또는 Flax 등, 이들 중 어떤 ML 프레임워크가 백엔드(backend)로 사용되는지 걱정할 필요가 없이 🤗Transformers를 마음대로 사용할 수 있습니다. 그러나 Transformer 모델은 텐서(tensor) 입력만 받습니다. 만일 여러분이 텐서(tensor)에 대해 처음 접한다면, NumPy 배열(array)을 생각하면 됩니다. NumPy 배열은 스칼라(0D), 벡터(1D), 행렬(2D) 혹은 더 많은 차원을 가질 수 있습니다. 이것은 사실상 텐서입니다. 다른 기계학습 프레임워크의 텐서도 비슷하게 동작하며, 일반적으로 NumPy 배열만큼 간단하게 생성(instantiate)할 수 있습니다.

토크나이저가 반환하는 텐서의 유형(PyTorch, TensorFlow 또는 일반 NumPy)을 지정하려면 return_tensors 인수(argument)를 사용하면 됩니다.

raw_inputs = [
    "I've been waiting for a HuggingFace course my whole life.",
    "I hate this so much!",
]
inputs = tokenizer(raw_inputs, padding=True, truncation=True, return_tensors="pt")
print(inputs)

아직 패딩(padding)과 truncation에 대해 신경쓰지 마세요. 나중에 설명하겠습니다. 여기서 기억해야 할 주요 사항은 단일 문장 또는 다중 문장 리스트를 토크나이저 함수로 전달할 수 있을 뿐만 아니라 출력 텐서 유형을 지정할 수 있다는 것입니다. 텐서 유형이 지정되지 않으면 결과로 이중 리스트(list of list)가 표시됩니다.

PyTorch 텐서 유형의 결과는 위와 같습니다. 위 결과에서 보듯이, 출력은 두 개의 키(key) 즉, input_ids 및 attention_mask를 가지는 파이썬 딕셔너리입니다. input_ids에는 각 문장에 있는 토큰의 고유 식별자로 구성된 두 행의 정수(각 문장에 하나씩)가 값(value)으로 들어가 있습니다. 이 장의 뒷부분에서 attention_mask 가 무엇인지 설명합니다.

Going through the model

토크나이저와 동일한 방식으로 사전 학습된 모델(pretrained model)을 다운로드할 수 있습니다. 🤗Transformers는 위의 AutoTokenizer 클래스와 마찬가지로, from_pretrained() 메서드가 포함된 AutoModel 클래스를 제공합니다.

from transformers import AutoModel

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
model = AutoModel.from_pretrained(checkpoint)

위 코드 스니펫(code snippet)에서는 이전에 파이프라인에서 사용한 것과 동일한 체크포인트를 다운로드하고(실제로 이미 캐시되어 있어야 함) 모델을 인스턴스화(instantiate)했습니다.

해당 아키텍처에는 기본 Transformer 모듈만 포함되어 있습니다. 따라서, 입력이 주어지면 자질(feature) 이라고도 불리는 hidden states 를 출력합니다. 각 모델 입력에 대해 Transformer 모델에 의해서 수행된 해당 입력의 문맥적 이해(contextual understanding) 결과 를 나타내는 고차원 벡터(high-dimensional vector)를 가져옵니다.

이 부분이 이해가 가지 않더라도 걱정하지 마세요. 나중에 모두 설명하겠습니다.

이러한 hidden states는 그 자체로도 유용할 수 있지만 일반적으로 head 라고 알려진 모델의 다른 부분에 대한 입력으로 들어갑니다. 1장에서, 동일한 아키텍처로 서로 다른 태스크(task)를 수행할 수 있었지만 이러한 각 태스크(task)에는 서로 다른 헤드(head)가 연결되어 있습니다.

A high-dimensional vector?

Transformer 모듈의 벡터 출력은 일반적으로 규모가 큽니다. 일반적으로 세 가지 차원이 있습니다:

배치 크기(Batch size): 한 번에 처리되는 시퀀스(sequence)의 개수(위의 예제에서는 2개).
시퀀스 길이(Sequence length): 시퀀스 숫자 표현의 길이(이 예에서는 16).
은닉 크기(Hidden size): 각 모델 입력의 벡터 차원.

위에서 마지막 값 때문에 "고차원(high-dimensional)" 벡터라고 나타냅니다. Hidden size는 매우 클 수 있습니다(768은 작은 모델에 일반적이고 큰 모델에서는 3072 이상일 수도 있음).

사전 처리한 입력을 모델에 넘기면 다음과 같은 내용을 볼 수 있습니다.

outputs = model(**inputs)
print(outputs.last_hidden_state.shape)

🤗Transformers 모델의 출력은 namedtuple 또는 딕셔너리(dictionary)처럼 동작합니다. 요소에 접근하기 위해서 속성 또는 키(outputs["last_hidden_state"])를 사용할 수 있습니다. 또한, 찾고 있는 항목이 어디에 있는지 정확히 알고 있는 경우 인덱스(outputs[0])로도 액세스할 수 있습니다.

Model heads: Making sense out of numbers

모델 헤드(model head)는 hidden states의 고차원 벡터(high-dimensional vector)를 입력으로 받아 다른 차원에 투영(project)합니다. 일반적으로 헤드(head)는 하나 또는 몇 개의 선형 레이어(linear layers)로 구성됩니다.

Transformer 모델의 출력은 처리할 모델 헤드(model head)로 직접 전달됩니다.

위 그림에서 모델은 임베딩 레이어(embeddings layer)와 후속 레이어(subsequent layers)로 표현됩니다. 임베딩 레이어(embeddings layer)는 토큰화된 입력(tokenized input)의 각 입력 ID를 해당 토큰을 나타내는 벡터(embeddings vector)로 변환합니다. 그 이후의 후속 레이어는 주의 메커니즘(attention mechanism)을 사용하여 이들 임베딩 벡터(embeddings vector)를 조작하여 문장의 최종 표현(final representation)을 생성합니다.

🤗Transformers에는 다양한 아키텍처가 있으며 각 아키텍처는 특화된 작업을 처리하도록 설계되었습니다. 다음은 일부 아키텍처를 보여주고 있습니다:

*Model (hidden states를 리턴)
*ForCausalLM
*ForMaskedLM
*ForMultipleChoice
*ForQuestionAnswering
*ForSequenceClassification
*ForTokenClassification
and others🤗

이 섹션에서의 예시에서는 시퀀스 분류 헤드(sequence classification head)가 포함되어 있는 모델이 필요합니다(문장을 긍정 또는 부정으로 분류하기 위해서). 따라서 실제로 AutoModel 클래스를 사용하지 않고 대신 AutoModelForSequenceClassification를 사용합니다:

from transformers import AutoModelForSequenceClassification

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)
outputs = model(**inputs)

이제 출력의 모양(shape)을 보면 차원이 훨씬 낮아집니다. 모델 헤드(model head)는 고차원 벡터를 입력으로 사용하고 두 개의 값(레이블당 하나씩)을 포함하는 벡터를 출력합니다.

print(outputs.logits.shape)

두 개의 문장과 두 개의 레이블만 있기 때문에, 모델에서 얻은 결과의 모양(shape)은 2 x 2입니다.

Postprocessing the output

모델에서 출력으로 얻은 값은 반드시 그 자체로 의미가 있는 것은 아닙니다. 다음을 한번 보시지요.

print(outputs.logits)

우리 모델은 첫 번째 문장에 대해 [-1.5607, 1.6123], 두 번째 문장에 대해 [4.1692, -3.3464]를 예측했습니다. 이는 확률이 아니라 모델의 마지막 계층에서 출력된 정규화되지 않은 원시 점수인 logits 입니다. 이들 값을 확률로 변환하려면 SoftMax 계층을 통과해야 합니다. 모든 🤗Transformers 모델은 이 logits 값을 출력합니다. 그 이유는 일반적으로 학습을 위한 손실 함수(loss function)는 최종 활성화 함수(activation function, e.g., SoftMax)와 실제 손실 함수(actual loss function, e.g., cross entropy)를 모두 사용하여 구현되기 때문입니다.

import torch

predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
print(predictions)

이제 모델이 첫 번째 문장에 대해 [0.0402, 0.9598], 두 번째 문장에 대해 [0.9995, 0.0005]를 예측했음을 알 수 있습니다. 이들은 우리가 이해할 수 있는 확률 점수입니다.

각 위치에 해당하는 레이블을 가져오기 위해, model.config의 id2label 속성값을 확인합니다. 더 자세한 내용은 다음 섹션에서 다룹니다.

model.config.id2label

이제 모델이 아래 내용을 예측했다는 결론을 내릴 수 있습니다:

첫번째 문장 : NEGATIVE: 0.0402, POSITIVE: 0.9598
두번째 문장 : NEGATIVE: 0.9995, POSITIVE: 0.0005

지금까지 파이프라인(pipeline)의 내부에서 실행되는 3단계인 토크나이저를 사용한 전처리(preprocessing), 모델을 통한 입력 전달(passing the inputs through the model) 및 후처리(postprocessing)를 성공적으로 실행해봤습니다.

✏️ Try it out! 본인이 가지고 있는 텍스트를 두 개(또는 그 이상) 선택하고 sentiment analysis 파이프라인을 통해 실행해 봅시다. 그런 다음 여기에서 설명한 대로 직접 실행해보고, 동일한 결과를 얻는지 확인해보세요!

Author And Source

이 문제에 관하여([🤗 강좌 2.2] Pipeline 내부 실행 과정), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@spasis/강좌-2.2-Pipeline-내부-실행-과정

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)