[Object Detection] 1-Stage vs. 2-Stage Object Detection 아키텍처 비교

Object Detection detector

객체 탐지(Object Detection) 시스템에서 이미지나 비디오 내의 객체를 식별하고 위치를 추정하는 알고리즘 또는 모델을 의미합니다. 객체 탐지에서 detector는 특정 객체가 이미지에 존재하는지 여부를 판단하고, 그 객체의 위치를 나타내는 bounding box를 생성하는 역할을 합니다. 이 과정은 크게 두 가지로 나눠집니다:

Classification (분류): 객체가 어떤 종류인지를 예측하는 단계입니다. 예를 들어, 이미지 내의 어떤 객체가 사람인지, 고양이인지, 자동차인지 분류하는 작업을 수행합니다.
Localization (위치 추정): 객체가 이미지 내의 어느 위치에 존재하는지를 판단합니다. 이때 각 객체에 대해 bounding box를 생성하여, 해당 객체가 포함된 영역을 사각형으로 나타냅니다.

객체 탐지 모델은 이 두 가지 작업을 동시에 수행하는 방식으로, 분류와 위치 추정을 모두 처리합니다. 객체 탐지 모델이 생성한 bounding box는 객체의 위치를 정의하며, 모델은 각 박스가 어떤 객체에 해당하는지를 예측합니다.

2-Stage vs. 1-Stage Detector

객체 탐지(Object Detection) 모델은 크게 1-stage detector와 2-stage detector로 구분됩니다. 이 두 방식은 객체 탐지의 처리 방식과 속도, 성능에서 차이를 보이며 각각의 장단점이 있습니다. 2-stage와 1-stage detector는 이 객체 탐지를 처리하는 방식에서 차이를 보입니다.

2-Stage Detector는 먼저 이미지 내에서 객체가 있을 법한 후보 영역을 추출한 후, 그 영역에 대해 분류를 수행하는 방식입니다. 이 방식은 정확도는 높지만 처리 시간이 상대적으로 많이 걸립니다.
1-Stage Detector는 anchor box와 CNN을 통한 동시 처리 방식으로, 이미지를 한 번에 처리하여 객체를 탐지합니다. 이 방식은 속도가 빠르지만 정확도는 상대적으로 낮을 수 있습니다.

객체 탐지에서 detector는 객체를 찾아내고, 그 위치와 종류를 예측하는 핵심적인 역할을 합니다.

2-Stage Object Detector

2-stage detector는 객체 검출을 두 단계로 나누어 처리합니다.

Region Proposal 단계에서, 이미지에서 객체가 있을 법한 영역(ROI)을 찾습니다. 이때 사용되는 대표적인 기법은 Selective Search와 Sliding Window입니다.
- Selective Search: 영역의 질감, 색, 강도 등을 이용해 물체가 있을 법한 박스나 영역을 찾아냅니다.
- Sliding Window: 정해진 크기의 bounding box를 이미지에 슬라이딩 방식으로 적용하여 객체를 찾습니다. 이 방법은 비효율적이며 시간이 많이 소요됩니다.
Classification 단계에서는 후보 영역을 기반으로 실제 객체가 무엇인지 분류합니다. 이 과정은 시간이 걸리지만, 정확도가 높습니다.

Selective Search

2024.04.19 - [CV/논문 리뷰] - [논문 리뷰] Selective Search for Object Recognition (선택적 탐색)

[논문 리뷰] Selective Search for Object Recognition (선택적 탐색)

이 리뷰는 오직 학습과 참고 목적으로 작성되었으며, 해당 논문을 통해 얻은 통찰력과 지식을 공유하고자 하는 의도에서 작성된 것입니다. 본 리뷰를 통해 수익을 창출하는 것이 아니라, 제 학

c0mputermaster.tistory.com

대표적인 2-stage 모델:

R-CNN, Fast R-CNN, Faster R-CNN

장점:

높은 검출 성능을 제공
비교적 정확한 객체 탐지

단점:

속도가 느림
실시간 객체 탐지에는 적합하지 않음

1-Stage Object Detector

1-stage detector는 객체 탐지에서 속도를 우선시하는 방식입니다. 이 방식은 이미지를 한 번에 처리하여 객체를 찾고, 그 위치와 종류를 예측하는 과정을 동시에 진행합니다. 이때 사용되는 방법 중 하나는 Anchor Box를 활용하는 방식입니다.

Anchor Box는 사전 정의된 크기와 비율을 가진 박스로, 다양한 크기와 비율을 갖는 객체를 탐지하기 위해 설계됩니다. 이 방식은 K-means 알고리즘을 사용하여 생성된 여러 개의 박스를 사용하고, 각 박스는 특정 영역에서 객체를 탐지하는 역할을 합니다. 학습을 통해 Anchor Box의 위치나 크기를 최적화하여 객체를 탐지합니다.

이 방식은 슬라이딩 윈도우 기법을 대체하며, 이미지의 모든 잠재적인 위치에서 예측을 계산할 필요 없이 빠르게 처리할 수 있습니다.

대표적인 1-stage 모델은 RetinaNet, SSD, EfficientDet, YOLO 등이 있습니다.

장점:

빠른 속도로 실시간 객체 탐지가 가능
각 객체에 대해 별도의 후보 영역을 생성할 필요가 없어 속도가 빠름

단점:

정확도가 2-stage 모델에 비해 낮을 수 있음
복잡한 객체 탐지에서는 정확도가 떨어질 가능성 있음

2-Stage vs 1-Stage Object Detector 정리

처리 방식	후보 영역(Region Proposal) 추출 후, 분류	Anchor Box를 통해 동시에 처리
속도	느림	빠름
정확도	높음	상대적으로 낮음
실시간 탐지	어려움	가능
대표 모델	R-CNN, Fast R-CNN, Faster R-CNN	RetinaNet, SSD, EfficientDet, YOLO

'Computer Vision > Computer Vision' 카테고리의 다른 글

[Segmentation] Semantic Segmentation 알아보기 FCN, U-Net (0)	2025.09.24
[Anomaly Detection] Industrial Image Anomaly Detection: Survey (1)	2025.08.10
[Object Detection] YOLO모델의 발전 과정 정리해보기 V1~12 (0)	2025.01.13