물체 검측의 회전에 주의해라!회전은 타원으로 고려해야 한다
6855 단어 논문 읽기화상 처리물체 검측DeepLearning기계 학습
물체가 검출하는 Bounding box는 4개의 벡터로 구성되어 있습니다. $(x, y, w, h).이렇게 물체 주변에 사각을 그리는 바운딩 박스는 그것이 물체 검출의 목적이라고 예측한다.Data Augmentation으로 이미지를 회전할 때 물체 감지 시 Bounding Box도 회전해야 합니다.
가장 간단한 Bounding Box 회전 방법도 사각형으로 회전한 후의 좌표를 구하고 최대, 최소를 구한다.이 논문은 Largest Box라고 합니다.나도 이전에 이 방법으로 한 적이 있다.
예를 들어, Bounding Box의 사각 좌표는
$$(x_1, y_1), (x_2, y_2), (x_3, y_3), (x_4, y_4)$$
.회전 후 사각의 좌표
$$(x_1', y_1'), (x_2', y_2'), (x_3', y_3'), (x_4', y_4')$$
.실제 $x1', y_1',\cdots달러는 회전 행렬로 계산됩니다.회전된 새 Bounding Box는
Largest Box입니다.그러나 이 방법은 여분의 틈이 생길 수 있다.이 논문의 취지는 이 간극이 물체 검측 훈련에서 적대적인 작용을 하여 정밀도를 떨어뜨렸다는 것이다.실제로 MS COCO를 통해서 훈련을 하고 나서...
COCO의 테스트 데이터를 20° 회전하여 평가합니다.Largest Box에서 Augmentation의 경우 하지 않는 경우와 비교해 AP 75가 20이상 떨어졌다.이것은 큰 문제다.(Largest Box를 사용할 수 있음) Fast AI는 Augmentation에서 3° 이하로 회전하는 것을 권장합니다.
한편, 제안 수법이라면 회전하는 Augmentation을 넣어도 아무것도 하지 않는 경우와 비교해 AP 50, 75가 모두 상승했다.
이 그림의 Perfect Rotation Labels는 회전된 이미지에 레이블을 지정하므로 추가 데이터와 변형이 필요합니다.AP 50에서 Perfect Rotation과 비슷한 값을 표시합니다.
타원으로 생각하다
Largest Box의 문제점은 간단한 방법으로 해결할 수 있습니다.Bouding Box를 타원으로 회전합니다.
타원이라 엘립스 박스라고 합니다.설치는 다음과 같습니다.타원의 점은 Bouding Box를 중심으로 하는 극좌표를 고려하여 임의의 각도로 점을 샘플링한다(논문 보조자료의 내용이다).
회전 전 4개 각의 회전이 아니라 회전 전 Bouding Box에 내접한 타원을 고려해 원주의 점을 회전시켜 새로운 Bouding Box 처리를 만든다.코드의 변경량이 매우 적은 것도 장점이다.
이 예는 1° 단위로 샘플링을 하는데 계산량에 신경을 쓰면 샘플링 간격을 조금 더 좁힐 수 있다.
라벨의 Average Precition의 이론적 값을 계산하여 실제 15°~30° 회전
타원에서 볼 때 AP의 감쇠는 Largest Box보다 느리다.AP50은 40°를 돌려도 쇠퇴가 거의 없고 AP75는 최대 3배 가까이 개선된다.
또 IoU의 이론값과 실제 mAP도 강하게 연동된다.타원 이외의 예로 팔각형과 다이아몬드 등을 시험해 봤지만 타원이 가장 좋았다고 한다.
Rotation Uncertainty Loss
타원 회전 외에도 회전의 불확실성을 고려해 자신의 손실 함수를 만들었다.회전 각도가 45도, 135도,...인 것을 감안하면 회전의 불확실성이 가장 높다
$C(\theeta)$고려는 Data Augmentation의 모서리이고 $\delta 달러는 하이퍼매개변수입니다.이것은 회전의 신뢰성을 나타낸다. 그림과 같다.회전 각도가 0°일 때 가장 안정적이므로 이 값은 1입니다.Augmentation의 회전 각도가 상승함에 따라 회전의 신뢰성이 떨어진다.
손실 함수 $l$reg} 패치로 사용l_'{reg}달러'는 물체가 검출하는 손실 함수의 하나로 회귀 문제에서 예측과 실제 Bounding Box의 차이를 정의한다.
Bounding Box의 경우 예상 및 실제 IoU 달러 IoU(p, g t) 달러가 $\max(0.5, C(\theta) 달러보다 작으면 $l달러 추가.그렇지 않으면 Bounding Box의 위치가 올바른 것으로 간주됩니다.{reg} 달러를 추가하지 않습니다.
일반 손실 함수, 회전각과 IoU와 무관, $l{reg} 달러가 붙었지만 IoU가 slasshold보다 낮을 때만 $l달러 증가는 Rotation Unceertainty Los의 특징입니다.이 인코딩의 변경수도 매우 적다.
실제로 COCO에서 시험해 보니 타원 회전 + Rotation Unceertainty Looss ($\delta는 10°) 가 가장 좋은 것 같습니다.0°에서도 타원과 RU ross가 좋아지기 때문에 가로축은 Data Augmentation 각도가 아니라 Val 데이터의 모서리입니다.어떤 방법이든 그림의 회전이 더욱 건장하다는 것을 보여 준다.
회전에 대한 노봉성
훈련할 때의 회전각은 평균 0, 표준 편차 15의 표준 분포의 무작위 수에 의해 결정된다.
여러 데이터 세트를 통해 실험한 결과 AP가 모두 상승했습니다.테스트 데이터에서 회전이 없는 경우에도 패스칼 VOC처럼 Largest Box에서는 안에 있는 범선을 감지할 수 없지만 타원+RU Looss를 통해 감지할 수 있는 보다 정확한 판정을 할 수 있다.
Data Augmentation이 아닌 테스트 시 회전에 대해서도 루팡성을 실험했다.이 논문을 통한 훈련은 라지스트 박스로 훈련할 때보다 테스트할 때의 회전을 더 튼튼하게 한다.Largest Box의 훈련을 통해 회전을 하지 않는 Augmentation보다 테스트 시 회전 성능(특히 COCO의 AP75)이 떨어지는 것이 더 재미있다.
실제 테스트를 할 때 회전하는 물체 검측 응용을 고려해야 하기 때문에 이런 방법을 사용하는 것이 매우 좋다.
총화와 감상
타원과 RU ross라는 간단한 관점만 주목하면 이렇게 많은 성능을 높일 수 있다니 대단하다.주의해야 할 것은'회전이 가장 강한 Data Augmentation'이 아니라는 점이다.이어 "최강의 Data Augmentation을 알고 싶다면 본 논문의 범위가 아닌 Auto Augment 등을 시행해야 한다"며 글에서도 거부했다.적어도 Data Augmentation에서는 Largest Box를 사용하지 않은 이유가 표시됩니다.
한편, 테스트할 때 회전하는 노봉성을 높이는 데 의미가 있는 것 같다.도로의 고정 감시 카메라 등은 기본적으로 회전하지 않는다. 예를 들어 현미경의 이미지처럼 어디가 0°의 기준인지 모르는 데이터는 회전의 노봉성에 대해 큰 연구가 필요하다.나는 이것이 두뇌의 구석에 놓인 비교적 좋은 논문이라고 생각한다.
통지하다
이 부가 달력이 책이 됐어!
https://koshian2.booth.pm/items/3595424
Amazon에서도 처리 상세 정보가 있습니다.👉 https://shikoan.com
Reference
이 문제에 관하여(물체 검측의 회전에 주의해라!회전은 타원으로 고려해야 한다), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/koshian2/items/d672cc502edd64d9d91f텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)