Feature Pyramid Networks for Object Detection 리뷰

Mask R-CNN 뿐만 아니라 Object Detection 네트워크에서 대부분 사용중인 FPN에 대해서 리뷰하도록 하겠습니다.

FPN 이전 시도 되었던 방식

(a) Featureized image pyramid

(b) Single feature map

(c) Pyramidal feature hierarchy

특정 컨볼루션 layer에서 나온 feature map 추출하여 detect함
multi-scale feature map을 활용하여 성능향상 있음
그러나 feature map 간 해상도 차이로 semantic gap이 발생. 고해상도 feature map은 저수준의 feature 를 가지고 있는데, 이것은 representational capacity에 안좋은 영향을 미침

(d) Feature pyramid network

목표는 기존 컨볼루션 네트워크에서 계층적 구조를 추가하여 사용하는 것. 그것은 저수준(low-level)에서 고수준(high-level)까지 의미 있는 feature 를 만드는 것
부분적으로 multi-level에서 feature map을 얻고, 최종적으로는 single-scale 이미지를 얻음
feature map 을 얻는 과정은 Backbone 네트워크의 컨볼루션 과정과 독립적으로 처리됨
pyramid 구조는 bottom-up pathway, top-down pathway, lateral connection 으로 이루어져 있음

Feature pyramid network 3가지 구성요소

1. Bottom-up pathway

Bottom-up path는 컨볼루션 네트워크의 forward 과정임
이때 각 단계별로 2배씩 스케일링된 피쳐맵으로 구성됨
각 단계별로 마지막 레이어의 feature map을 선택함 (같은 사이즈의 feature map을 가지는 레이어는 같은 stage라고 봄 이중 가장 마지막 레이어를 의미)
특히, ResNet을 예로보면 각 단계의 마지막 residual block의 feature map을 선택함
Conv2, conve3, conv4, conv5 의 feature map을 활용 (Conv1 은 메모리 사용이 커 사용하지 않음)

2. Top-down pathway and lateral connections

Top-down path는 더 높은 resolution으로 upsampling하는 과정이다.
upsampling으로 생성된 feature map은 bottom-up path에서 생성된 feature map과 연결되므로써 피쳐가 enhance됨
각 connection은 같은 spatial size로 합쳐짐
Bottom-up path에서 생성된 feature map은 의미적으로 낮은 수준의 feature 이지만, subsampling된 횟수가 적기 때문에 위치 정보는 더 정확함.
Upsampling은 nearest neighbor 기법을 적용함
Upsampled feature map은 bottom-up path이 feature map과 합쳐지는데, 채널 수를 줄이기 위해서 1x1 컨볼루션 과정이 포함됨
해상도와 채널수가 일치하면 element-wise 더셈으로 merge 됨
각 merged feature map에 마지막으로 3x3 컨볼루션을 적용하여 마지막 feature map을 생성하는데, 그것은 upsampling 과정에서 발생한 aliasing 효과를 줄이기 위함
이 과정을 통해 최종적으로 생성된 feature map을 p2 p3 p4 p5 라고 부름

Test-Time Augmentation (0)	2023.01.14
Mask R-CNN 논문 리뷰 (1) (1)	2023.01.01

오늘은 어디로