PyTorch 이미지 변환을 위한 시각화 도우미

Tldr



앱을 확인하세요here .

이미지 확대는 임의 회전 및 이동과 같은 실제 훈련 데이터를 변환하여 인공 훈련 데이터를 생성하기 위해 컴퓨터 비전 모델을 훈련할 때 사용되는 일반적인 기술입니다.

4개의 새로운 고양이 이미지를 만들었습니다!

그러나 이러한 증강은 종종 미묘한 버그의 원인이 될 수 있습니다. 예를 들어 다음은 일반적인 PyTorch 변환 파이프라인입니다.

from torchvision import transforms

transform = transforms.Compose([
    transforms.RandomAffine(degrees=360, translate=(0.64, 0.98), scale=(0.81, 2.85), shear=(0.1, 0.5), fill=0, interpolation=InterpolationMode.NEAREST),
    transforms.ColorJitter(brightness=0.62, contrast=0.3, saturation=0.44, hue=0.24),
    transforms.RandomVerticalFlip(p=0.45)
])


뭔가 명백히 잘못된 것이 보이시나요?

글쎄, 우리가 실제로 이러한 변환을 고양이에게 적용하려고 할 때 어떤 일이 일어나는지 봅시다.

이 중 절반은 고양이처럼 보이지도 않습니다!

보시다시피 변환이 제대로 조정되지 않아 완전히 인식할 수 없는 많은 수의 이미지가 생성되었습니다. 이 증강 데이터 세트에서 모델을 교육하면 더 이상 고양이가 어떻게 생겼는지 학습하지 않습니다.

이러한 종류의 버그는 오류가 발생하지 않기 때문에 까다롭습니다. 대신 결과는 모델이 증강되지 않은 테스트 데이터 세트에서 수행할 수 있는 만큼 잘 수행되지 않을 것입니다.

PyTorch 변환 시각화 도우미 소개





이 도구를 사용하여 훈련 스크립트에서 사용하기 전에 실제 이미지에 대한 변환을 개발하고 온전한 검사를 할 수 있습니다. torchvision.transforms 패키지에서 제공되는 모든 변환을 지원합니다.

확인해보세요here !

좋은 웹페이지 즐겨찾기