[Real-time Segmentation] PSPNet, ICNet, ENet

2021. 1. 21. 22:00

안녕하세요.

오늘은 제가 후에 Real-time Segmentation SOTA paper를 읽을 때

필요한 baseline paper라고 선정한 논문들의 Background, Method, Experiment를 간단하게 정리해보겠습니다.

순서는 타이틀과 같이 PSPNet, ICNet, ENet 순으로 하겠습니다.

1. PSPNet

Zhao, Hengshuang, et al. "Pyramid scene parsing network."
Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.

(논문 링크: https://arxiv.org/abs/1612.01105)

KeyWord: Global Context Information

- Backgrounds

FCN model을 대표로 기존 Segmentation model들의 문제점들을 그림 1과 함께 살펴보겠습니다.

1. 강가에 위치한 보트를 자동차로 잘못 인식하는 것처럼 주변 상황을 고려하여 클래스를 분류하지 못하는 Mismatched Relationship

2. 비슷하게 생긴(비슷한 특징을 가진) 건물(Building)과 초고층 건물(SkyScraper)을 명확하게 분류하지 못하는 Confusion Categories

3. 침대와 같은 패턴을 가져 눈에 잘 띄지 않는 Obejct인 베개(Pillow)와 침대(Bed)를 명확하게 분류하지 못하는 Inconspicuous Classes

이렇게 대표적인 3가지 문제점이 있습니다.

- Method

이 문제점들을 해소하기 위해, PSPNet은 2x2 Average Pooling을 사용한 Gloal Context Information을 제안했습니다.

(Max Pooling보다 Average Pooling이 성능이 더 잘 나왔다고 본 논문에 작성되어 있어 Average Pooling에 대한 방법만 간단하게 설명하도록 하겠습니다.)

<그림 2> Global Conetxt Information과 적용한 결과

그림 2의 좌측 예시를 보면서 설명하면,

각 4개의 sub-region에 해당하는 pixel 값들의 평균을 오른쪽 2x2 배열에 입력하면

우측 그림과 같이 근처에 물이 있는지 주변에 대한 feature 정보를 얻어 앞선 예제인 FCN처럼 차가 아닌 보트로 최종적으로 예측할 수 있게 됩니다.

이 Global Context Information을 네트워크에 적용하고 수행하는 Task를 살펴보겠습니다.

- Network

1. 먼저, 이미지로부터 dilated CNN을 수행한 feature map을 획득합니다.

2. 획득한 feature map에 대하여 각 다른 크기의 Average Pooling을 수행합니다.

3. 각 feature map에 bilinear interpolation과 1x1 convolution을 수행하여 feature map들의 size와 channel 수를 맞춰준 다음, 모두 더하여 최종 Prediction을 획득합니다.

- Conclusion

위 PSPNet architecture에 Cityscapes 데이터셋을 적용하면

기존 Segmentation model들보다 Accuracy가 높아진 것을 확인할 수 있습니다.

2. ICNet

Zhao, Hengshuang, et al. "Icnet for real-time semantic segmentation on high-resolution images."
Proceedings of the European Conference on Computer Vision (ECCV). 2018.

(논문 링크: https://intuitive-robotics.tistory.com/79)

Keyword: CFF(Cascade Feature Fusion), Cascade Label Guidance

- Background

ICNet과 동일한 저자들인 PSPNet 저자들은

PSPNet이 높은 Accuracy를 보이지만 낮은 처리 속도를 갖는 문제점이 많은 연산량으로 인한 속도 저하라 생각하여

Input과 kernel로 Convolution 연산을 수행하여 Output을 획득하는 Convolution 수식을 분석하며

Input, Output, Kernel의 연산량을 집중적으로 살펴보았습니다.

<그림 6> Input, Kernel으로 Convolution 연산을 수행하는 수식

Feature Extraction을 하기 위해 Convolution 연산을 수행할 때,

커널의 크기는 사이즈는 최소 3x3을 가지므로 저자들은 커널이 아닌 input 사이즈를 조정해보기로 합니다.