[Survey]Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification

Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification
본고의 목적은 다음과 같은 흑백 이미지에 색칠하는 것이다.
Colorization은 예로부터 연구가 있는데 누군가가 수동으로 색을 지정하여 전개하는 것도 있고 자동 착색하는 것도 있지만 이 논문은 자동 착색이다.

예전에도 CNN의 Colorization을 사용했지만 본고의 특징은
・ Fullato의 colorization
· Global 특징과 Local 특징을 함께 학습하는 end-to-end network
・ 성능 향상을 위해 분류 라벨을 활용하는 학습 방법
· Global feature 기반 스타일 전송
태그 요소의 표시 속성을 수정합니다.


전역 모델과 국부 모델의 결합


글로벌 모델과 로컬 모델을 결합하여
· 모든 해상도를 처리할 수 있는 이미지
· 국부적 추정에 글로벌 사전 확률 추가
· 이미지 스타일을 다른 이미지로 옮길 수 있는 Colorization

Low level Feature


6층으로 구성된 Convolutional Neural Network(자색 부분)
· 저급 특징은 전역 특징량 네트워크와mid-level 특징량 네트워크의 입력
・ 특징량을 줄이기 위해 Max-pooling 대신 stride의 양을 증가
3x3 커널 사용

Global Feature


· 네 개의 볼륨층과 두 개의 fully connected layer로 구성
256비트 벡터 표현 가능
· 입력한 이미지의 크기는 224x224

Mid level Feature


· 다른 두 개의 convolutional 레이어를 사용하여 저급 기능을 처리한다
· 512개 채널 입력, 256개 채널 출력

Fusion layer


256비트 전역 특징량과 256비트 Mid level 특징량을 결합합니다. $y_{u, v}^{fusion}$는 $(u, v)$의fused feature (융합 특징량), $y^{mid}_{u, v}$는 $(u, v)$의mid level 특징량이고, $y^ {global}$는 글로벌 특징량이며, $W$는 $256\times256$의 권중 행렬이며, $b$는bias입니다.이는 글로벌 특징량과 각 공간 위치의 Local 특징량을 연결하여 작은 1층으로 구성된 네트워크로 처리하는 것으로 이해할 수 있다.얻은 특징량은 전역 특징량의 해상도 제한에서 방출된다.


Colorization Network


Convolution 및 Upsampling을 하나의 그룹으로 처리하여 원래 이미지의 절반 크기로 반복합니다.Upsampling 처리는 간단한 Nearest Neighbor 방법을 통해 이루어집니다.

・ 네트워크 학습을 위해 Mean Square Error 표준을 사용합니다.
· 색상 공간은 CIE L*a*b* 공간을 사용합니다.

Colorization with Classification


SE 기준을 사용하여 컬러 이미지를 학습하면 성능이 향상되지만 실내나 실외 등 이미지의 내용을 학습하지 않아 뚜렷한 오류가 발생합니다.Colorization과 동시에 이미지 분류를 학습하여 성능을 향상시킵니다.학습에서는 N클래스로 구성된 이미지 분류용 대규모 이미지 데이터 세트를 사용하여 이미지 태그를 통해 전역 이미지 특징량의 학습을 제어할 수 있습니다.

SE와 함께 Loss 함수는 다음과 같습니다.

배경색 Loss는 전체 네트워크에 영향을 미치고 분류 Loss는 Classification Network, Global Feature Network, Low Level Features Network에만 영향을 미친다.

최적화 및 학습


이 모델은 모든 사이즈의 이미지를 처리할 수 있지만 저전평 특징의 무게를 공유하기 위해 전역 특징량 네트워크는 224x224의 이미지에 응답해야 한다.따라서 원시 이미지와 응답 이미지 두 이미지를 처리해야 하며 메모리 소모량과 처리 시간이 증가한다.학습하는 동안 이미지를 256x256으로 확대/축소한 다음 224x224의 크기로 확대/축소합니다.또 더 Robust 모델을 만들기 위해 50% 확률로 수평 방향에서 무작위로 플립을 한다.또한 Batch 정규화 및 ADADADELTA를 사용합니다.

실험 환경


$\alpha=1/300$, 2448872장 학습 이미지, 20500장 검증용 이미지, 205class, 200000회 교체,batchsize128

Colorization 결과



Style Transfer


이미지 B에서 추출한 스타일을 사용하여 이미지 A를 Colorization하기 위해 이미지 A의mid level 특징량과 이미지 B의 Global 특징량을 계산하고 융합하여 Colorization Network에서 처리한다.

좋은 웹페이지 즐겨찾기