[논문 리뷰] Object Detection in 20 Years: A Survey 2

이 리뷰는 오직 학습과 참고 목적으로 작성되었으며, 해당 논문을 통해 얻은 통찰력과 지식을 공유하고자 하는 의도에서 작성된 것입니다. 본 리뷰를 통해 수익을 창출하는 것이 아니라, 제 학습과 연구를 위한 공부의 일환으로 작성되었음을 미리 알려드립니다.

Object detection의 역사를 전반적으로 이해할 수 있는 2023년에 출간된 Survey 논문에 대한 리뷰인데 전체적인 흐름을 이해하는데 도움이 될 것 같아 리뷰하였다. 19년에 출간된 같은 이름의 논문도 있는데 가장 최근의 논문으로 리뷰하였다. 이는 이전글에 이어서 리뷰한 글이다.

2024.12.24 - [CV] - [논문 리뷰] Object Detection in 20 Years: A Survey 1

Z. Zou, K. Chen, Z. Shi, Y. Guo and J. Ye, "Object Detection in 20 Years: A Survey," in Proceedings of the IEEE, vol. 111, no. 3, pp. 257-276, March 2023, doi: 10.1109/JPROC.2023.3238524.
keywords: {Object detection;Detectors;Computer vision;Feature extraction;Deep learning;Convolutional neural networks;Computer vision;convolutional neural networks (CNNs);deep learning;object detection;technical evolution},

객체 탐지의 기술적 발전 (Technical Evolution in Object Detection)

3) Hard Negative Mining(HNM)의 기술적 발전:
탐지기의 훈련은 본질적으로 불균형 학습 문제입니다. 슬라이딩 윈도우 기반 탐지기의 경우, 배경과 객체 간의 불균형은 10^7:1과 같이 극단적일 수 있습니다. 이 경우, 모든 배경을 사용하는 것은 훈련에 해로울 수 있습니다. 방대한 수의 쉬운 네거티브 샘플들이 학습 과정을 압도하기 때문입니다. HNM은 이 문제를 해결하는 것을 목표로 합니다. HNM의 기술적 발전은 그림 7에 나와 있습니다.

Bootstrap: 객체 탐지에서 부트스트랩(Bootstrap)은 훈련 기법의 하나로, 훈련이 적은 양의 배경 샘플에서 시작해, 반복적으로 새로운 잘못 분류된 샘플을 추가하는 방법을 의미합니다. 초기 탐지기에서는 부트스트랩이 배경 샘플이 수백만 개에 달할 때 훈련 계산을 줄이기 위해 일반적으로 사용되었습니다. 이후, DPM과 HOG 탐지기에서는 데이터 불균형 문제를 해결하기 위한 표준 기법으로 자리 잡았습니다.

HNM in Deep Learning-Based Detectors: 딥러닝 시대에서는 계산 능력의 증가로 인해, 2014–2016년 동안 객체 탐지에서 부트스트랩이 잠시 폐기되었습니다. 훈련 중 데이터 불균형 문제를 해결하기 위해, Faster RCNN과 YOLO와 같은 탐지기들은 간단히 양성(positive)과 음성(negative) 윈도우의 가중치를 균형 있게 조정했습니다. 그러나 연구자들은 이것만으로는 불균형 문제를 완전히 해결할 수 없다는 점을 인식했습니다. 이를 해결하기 위해, 2016년 이후 부트스트랩이 객체 탐지에 다시 도입되었습니다. 또 다른 대안적인 개선 방법은 표준 교차 엔트로피 손실(cross entropy loss)을 재구성하여, 어려운 잘못 분류된 예시들에 더 많은 집중을 할 수 있도록 새로운 손실 함수를 설계하는 것입니다.

[10] P. Viola, M. Jones, “단순 특징들의 부스팅 계단을 이용한 빠른 객체 탐지,” Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit. (CVPR), Dec. 2001, pp. 1–9.

[12] N. Dalal, B. Triggs, “사람 탐지를 위한 방향성 히스토그램,” Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit., vol. 1, no. 1, Jun. 2005, pp. 886–893.

[13] P. Felzenszwalb, D. McAllester, D. Ramanan, “다중 규모로 훈련된 분류 가능한 부위 기반 모델,” Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2008, pp. 1–8.

[16] R. Girshick, J. Donahue, T. Darrell, J. Malik, “정확한 객체 탐지 및 의미론적 분할을 위한 풍부한 특징 계층,” Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2014, pp. 580–587.

[17] K. He, X. Zhang, S. Ren, J. Sun, “시각적 인식을 위한 심층 합성곱 신경망에서의 공간 피라미드 풀링,” Proc. ECCV. Cham, Switzerland: Springer, 2014, pp. 346–361.

[23] W. Liu et al., “SSD: 싱글 샷 멀티박스 탐지기,” Proc. ECCV. Cham, Switzerland: Springer, 2016, pp. 21–37.

[25] T.-Y. Lin, P. Goyal, R. Girshick, K. He, P. Dollar, “밀집 객체 탐지를 위한 포컬 손실,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 42, no. 2, pp. 318–327, Feb. 2020.

4) 손실 함수(Loss Function)의 기술적 발전:

손실 함수는 모델이 데이터와 얼마나 잘 일치하는지를 측정합니다 (즉, 예측값이 실제 레이블과 얼마나 차이가 나는지). 손실을 계산하면 모델 가중치의 그래디언트가 나오며, 이 그래디언트는 이후 역전파(backpropagation)를 통해 업데이트되어 데이터에 더 잘 맞추도록 합니다. 분류 손실(classification loss)과 위치 손실(localization loss)은 객체 탐지 문제의 감독을 구성합니다.

Localization Loss (위치 손실): 위치 손실은 예측된 경계 상자와 실제 경계 상자 간의 위치 및 크기 차이를 최적화하는 데 사용됩니다. 초기 연구에서는 L2 손실이 많이 사용되었습니다, 그러나 이는 아웃라이어(outliers)에 큰 영향을 받으며 기울기 폭발 문제가 발생할 수 있습니다. L1 손실과 L2 손실의 장점을 결합하여, 연구자들은 Smooth L1 손실을 제안했습니다.

L1 손실 (L1 Loss):
- L1 손실은 절대 오차의 합으로 계산됩니다.
- 수식은 다음과 같습니다: L1 loss=∑i∣yi−y^i∣L1\text{ loss} = \sum_{i} |y_i - \hat{y}_i| 여기서 yiy_i는 실제값이고, y^i\hat{y}_i는 모델의 예측값입니다. 즉, 예측값과 실제값의 차이를 절댓값으로 취한 후 이를 모두 더합니다.
- L1 손실은 "평탄한" 경향이 있어서 이상치(outlier)에 덜 민감합니다.
- 주요 특징: L1 손실을 사용하면 모델이 더 희소한(sparse) 특성을 갖도록 유도할 수 있습니다. 예를 들어, L1 규제는 가중치들을 0에 가깝게 만들려고 하기 때문에 일부 가중치는 0이 될 수 있습니다.
L2 손실 (L2 Loss):
- L2 손실은 제곱 오차의 합으로 계산됩니다.
- 수식은 다음과 같습니다: L2 loss=∑i(yi−y^i)2L2\text{ loss} = \sum_{i} (y_i - \hat{y}_i)^2 여기서 yiy_i는 실제값이고, y^i\hat{y}_i는 모델의 예측값입니다. 예측값과 실제값의 차이를 제곱한 후 이를 모두 더합니다.
- L2 손실은 이상치에 더 민감합니다. 즉, 예측값이 실제값에서 크게 벗어나면 그 차이를 제곱하므로, 그 영향을 더 크게 받습니다.
- 주요 특징: L2 손실을 사용하면 모델이 더 부드럽고 연속적인 결과를 만들려고 하며, L2 규제는 가중치를 작게 만들지만 0에 가깝지는 않게 유지하는 경향이 있습니다.

L1 손실은 차이의 절댓값을 사용하여 계산되며, 이상치에 덜 민감하고 희소성을 유도합니다.
L2 손실은 차이의 제곱을 사용하여 계산되며, 이상치에 민감하고 연속적인 특성을 유도합니다.

여기서 xx는 목표 값과 예측 값 사이의 차이를 나타냅니다. 위 손실들은 경계 상자를 나타내는 네 개의 값 (x,y,w,h)(x, y, w, h)를 독립 변수로 취급하지만, 이들 사이에는 상관 관계가 존재합니다. 또한, IoU는 예측된 상자가 실제 정답 상자와 일치하는지 여부를 평가하는 데 사용됩니다. 동일한 Smooth L1 값을 가진 상자들도 서로 다른 IoU 값을 가질 수 있기 때문에, IoU 손실 [105]이 도입되었습니다.

분류 손실 (Classification Loss): 분류 손실은 예측된 카테고리가 실제 카테고리와 얼마나 다른지 평가하는 데 사용됩니다. 이전 YOLOv1과 YOLOv2에서는 평균 제곱 오차(MSE)/L2 손실을 사용했으나, 이는 충분히 연구되지 않았습니다. 이후에는 교차 엔트로피 (CE) 손실이 일반적으로 사용되었습니다. L2 손실은 유클리드 공간에서의 측정이며, CE 손실은 분포 차이를 측정하는 데 사용됩니다 (확률론적 접근). 분류 예측은 확률값을 예측하므로, CE 손실은 잘못 분류된 예시들에 더 많은 가중치를 두며, L2 손실에 비해 기울기 소실 현상이 적습니다. 분류 효율성을 개선하기 위해, 라벨 스무딩(label smoothing)이 제안되었으며, 이는 모델의 일반화 능력을 향상시키고 노이즈 레이블에 대한 과신 문제를 해결하는 데 도움을 줍니다. 또한 포컬 손실(focal loss)은 카테고리 불균형 문제와 분류 난이도의 차이를 해결하기 위해 설계되었습니다.

IoU 손실 (IoU Loss): IoU 손실은 예측된 상자와 실제 상자 간의 겹치는 영역을 최적화하는 데 사용됩니다. IoU 손실은 다음과 같이 정의됩니다:

이후 여러 알고리즘들이 IoU 손실을 개선했습니다. 일반화된 IoU (G-IoU)는 IoU 손실이 겹치지 않는 경계 상자에 대해 최적화되지 않는 문제를 개선했습니다 (즉, IoU = 0일 때). 거리 IoU (DIoU)는 성공적인 탐지 회귀 손실이 세 가지 기하학적 메트릭을 충족해야 한다고 제시합니다: 겹치는 영역, 중심점 간의 거리, 그리고 종횡비(aspect ratio). 따라서 IoU 손실과 G-IoU 손실을 기반으로, 거리 IoU (DIoU)는 예측 값과 실제 값의 중심점 간의 거리를 정의하며, 완전 IoU (CIoU)는 DIoU를 기반으로 종횡비 차이를 고려합니다.

[21] J. Redmon, A. Farhadi, “YOLOv3: 점진적인 개선,” 2018, arXiv:1804.02767.

[106] H. Rezatofighi, N. Tsoi, J. Gwak, A. Sadeghian, I. Reid, and S. Savarese, "일반화된 교차-유사도: 바운딩 박스 회귀를 위한 메트릭과 손실 함수," Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 658–666.

[107] Z. Zheng, P. Wang, W. Liu, J. Li, R. Ye, and D. Ren, "Distance-IoU 손실: 바운딩 박스 회귀를 위한 더 빠르고 좋은 학습," Proc. AAAI Conf. Artif. Intell., vol. 34, no. 7, Apr. 2020, pp. 12993–13000.

5) 비최대 억제 (Nonmaximum Suppression, NMS)의 기술적 발전:

비최대 억제 (NMS)는 인퍼런스에서 유사한 객체를 중복된 경계 상자에서 하나로 합치기 위해 사용됩니다. 객체 탐지 시스템에서 원하는 출력이 명확하지 않았던 초기에는 NMS가 항상 통합되지 않았습니다.

탐욕적 선택 (Greedy Selection): 탐욕적 선택은 오래된 방법이지만 가장 인기 있는 NMS 방법입니다. 이 방법의 아이디어는 간단하고 직관적입니다: 겹치는 탐지가 있는 집합에서, 최대 탐지 점수를 가진 경계 상자를 선택하고, 이 상자에 의해 정의된 겹침 기준에 따라 인접한 상자들을 제거합니다. 탐욕적 선택은 현재 NMS에서 사실상 표준 방법이 되었지만, 여전히 개선할 여지가 있습니다. 첫째, 최고 점수를 가진 상자가 항상 최적의 선택이 아닐 수 있습니다. 둘째, 인접한 객체들을 억제할 수 있습니다. 마지막으로, 잘못 탐지된 음성(잘못된 탐지)도 억제하지 않습니다. 이에 대한 문제를 해결하기 위한 많은 연구가 제안되었습니다

경계 상자 집합화 (Bounding Box Aggregation): BB 집합화는 NMS의 또 다른 기법입니다. 이 방법은 여러 겹친 경계 상자들을 결합하거나 클러스터링하여 하나의 최종 탐지 결과를 만드는 방법입니다. 이러한 방식은 여러 상자들을 통합할 수 있어, 탐지 시스템이 더 정밀하게 최종 결과를 도출할 수 있도록 합니다.

Object Relationships and Their Spatial Layout: 객체 간의 관계 및 공간적 배열. 일부 잘 알려진 탐지기는 이 방법을 사용합니다. 예를 들어, VJ 탐지기와 로컬리제이션 태스크의 우승자인 Overfeat [65]이 있습니다.

학습 기반 NMS (Learning-Based NMS): 최근 주목받고 있는 NMS 개선 방법 중 하나는 학습 기반 NMS입니다 [85], [93], [109], [110], [111], [122]. 이 방법의 주요 아이디어는 NMS를 필터로 생각하고, 모든 원시 탐지를 재점수한 후, NMS를 네트워크의 일환으로 끝에서 끝까지 학습하거나, NMS의 동작을 모방하는 네트워크를 학습시키는 것입니다. 이러한 방법은 기존의 수작업으로 설계된 NMS 방법들보다 폐색(occlusion) 및 밀집된 객체 탐지에서 유망한 결과를 보여주고 있습니다.

NMS-Free 탐지기 (NMS-Free Detector): NMS에서 벗어나 완전히 끝에서 끝까지 학습하는 객체 탐지 네트워크를 구현하기 위해, 연구자들은 일대일 레이블 할당(즉, 하나의 객체는 하나의 예측 상자만을 갖는 방법)을 완료하는 일련의 방법을 개발했습니다 [28], [40], [120]. 이러한 방법들은 일반적으로 훈련을 위해 가장 높은 품질의 상자를 사용해야 한다는 규칙을 따르며, 이를 통해 NMS 없이도 객체 탐지를 할 수 있습니다. NMS-free 탐지기는 인간의 시각적 인식 시스템과 더 유사하며, 객체 탐지의 미래 방향 중 하나로 여겨지고 있습니다.

Object Relationships and Their Spatial Layout: 객체 간의 관계 및 공간적 배열. 일부 잘 알려진 탐지기는 이 방법을 사용합니다. 예를 들어, VJ 탐지기 [10]와 ILSVRC-13 로컬리제이션 태스크의 우승자인 Overfeat이 있습니다.

학습 기반 NMS (Learning-Based NMS): 최근 주목받고 있는 NMS 개선 방법 중 하나는 학습 기반 NMS입니다. 이 방법의 주요 아이디어는 NMS를 필터로 생각하고, 모든 원시 탐지를 재점수한 후, NMS를 네트워크의 일환으로 끝에서 끝까지 학습하거나, NMS의 동작을 모방하는 네트워크를 학습시키는 것입니다. 이러한 방법은 기존의 수작업으로 설계된 NMS 방법들보다 폐색(occlusion) 및 밀집된 객체 탐지에서 유망한 결과를 보여주고 있습니다.

NMS-Free 탐지기 (NMS-Free Detector): NMS에서 벗어나 완전히 끝에서 끝까지 학습하는 객체 탐지 네트워크를 구현하기 위해, 연구자들은 일대일 레이블 할당(즉, 하나의 객체는 하나의 예측 상자만을 갖는 방법)을 완료하는 일련의 방법을 개발했습니다. 이러한 방법들은 일반적으로 훈련을 위해 가장 높은 품질의 상자를 사용해야 한다는 규칙을 따르며, 이를 통해 NMS 없이도 객체 탐지를 할 수 있습니다. NMS-free 탐지기는 인간의 시각적 인식 시스템과 더 유사하며, 객체 탐지의 미래 방향 중 하나로 여겨지고 있습니다.

[121] C. Papageorgiou and T. Poggio, "학습 가능한 객체 탐지 시스템," Int. J. Comput. Vis., vol. 38, no. 1, pp. 15–33, 2000.

[116] R. Rothe, M. Guillaumin, and L. Van Gool, "윈도우 간 메시지 전달을 통해 객체 탐지에서 비최대 억제," Proc. Asian Conf. Comput. Vis. Cham, Switzerland: Springer, 2014, pp. 290–306.

[10] P. Viola, M. Jones, “단순 특징들의 부스팅 계단을 이용한 빠른 객체 탐지,” Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit. (CVPR), Dec. 2001, pp. 1–9.

[118] R. Solovyev, W. Wang, and T. Gabruseva, "가중된 박스 융합: 다양한 객체 탐지 모델에서 박스 앙상블," Image Vis. Comput., vol. 107, Mar. 2021, Art. no. 104117.

[119] Z. Zheng et al., "객체 탐지 및 인스턴스 분할을 위한 모델 학습 및 추론에서 기하학적 요소 향상," IEEE Trans. Cybern., vol. 52, no. 8, pp. 8574–8586, Aug. 2022.

[85] C. Desai, D. Ramanan, 및 C. C. Fowlkes, “다중 클래스 객체 레이아웃을 위한 판별적 모델,” 국제 컴퓨터 비전 저널, 제95권, 제1호, pp. 1–12, 2011년 10월.

[93] H. Hu, J. Gu, Z. Zhang, J. Dai, 및 Y. Wei, “객체 검출을 위한 관계 네트워크,” IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스, 2018년 6월, pp. 3588–3597.

[28] N. Carion, F. Massa, G. Synnaeve, N. Usunier, A. Kirillov, S. Zagoruyko, “변환기를 이용한 끝에서 끝까지의 객체 탐지,” Proc. Eur. Conf. Comput. Vis., Cham, Switzerland: Springer, 2020, pp. 213–229.

III. Speedup of Detection

탐지기 속도 향상은 오랫동안 도전적인 문제였습니다. 객체 탐지에서 속도 향상 기술은 세 가지 수준의 그룹으로 나눌 수 있습니다: “탐지 파이프라인”의 속도 향상, “탐지기 백본”의 속도 향상, “수치 계산”의 속도 향상입니다.

A. Feature Map Shared Computation
객체 탐지기에서 다양한 계산 단계 중에서 특징 추출이 보통 계산량을 가장 많이 차지합니다. 계산의 중복성을 줄이기 위해 가장 일반적으로 사용되는 아이디어는 전체 이미지의 특징 맵을 한 번만 계산하는 것입니다. 이 방식은 수십 배 또는 수백 배의 가속화를 이뤄냈습니다.

B. Cascaded Detection
계단식 탐지(Cascaded detection)는 일반적으로 사용되는 기술입니다. 이는 조잡한-정밀한 탐지 철학을 따릅니다: 간단한 계산을 사용하여 대부분의 간단한 배경 창을 걸러내고, 더 복잡한 창들은 복잡한 방법으로 처리합니다. 최근 몇 년 동안, 계단식 탐지는 특히 “큰 장면에서의 작은 객체 탐지”에 적용되었습니다. 예를 들어, 얼굴 탐지와 보행자 탐지가 있습니다.

C. Network Pruning and Quantification
“네트워크 가지치기(Network pruning)”와 “네트워크 양자화(Network quantification)”는 CNN 모델을 가속화하는 데 자주 사용되는 두 가지 방법입니다. 첫 번째는 네트워크 구조나 가중치를 가지치기하는 것이고, 두 번째는 그들의 코드 길이를 줄이는 것입니다. 네트워크 가지치기에 대한 연구는 1980년대까지 거슬러 올라갑니다. 최근의 네트워크 가지치기 방법은 보통 반복적인 훈련과 가지치기 과정을 따릅니다. 즉, 훈련의 각 단계 후에 중요하지 않은 작은 그룹의 가중치를 제거하고, 이러한 작업을 반복하는 방식입니다. 최근의 네트워크 양자화 연구는 네트워크 이진화에 주로 초점을 맞추고 있으며, 이는

D. Lightweight Network Design
CNN 기반 탐지기의 속도를 높이는 마지막 그룹의 방법은 경량 네트워크 설계(lightweight networks)입니다. “채널 수를 적게 하고 레이어 수를 더 많이” 하는 것과 같은 일반적인 설계 원칙 외에도 최근 몇 년 동안 다양한 다른 방법들이 제안되었습니다.

Factorizing Convolutions
합성 합성곱(Factorizing convolutions)은 경량 CNN 모델을 구축하는 가장 직관적인 방법입니다. 합성 방법에는 두 가지 그룹이 있습니다. 첫 번째 그룹은 큰 합성곱 필터를 작은 합성곱 필터 세트로 분해하는 것입니다. 예를 들어, 7×7 필터를 3×3 필터 세 개로 분해할 수 있으며, 이들은 동일한 수용 영역을 공유하지만 후자가 더 효율적입니다. 두 번째 그룹은 채널 차원에서 합성곱을 분해하는 방법입니다.
Group Convolution
그룹 합성곱(Group convolution)은 합성곱 층에서 특징 채널을 여러 그룹으로 나누고 각 그룹에서 독립적으로 합성곱을 수행하여 파라미터 수를 줄이는 방법입니다. 예를 들어, 특징을 m개의 그룹으로 나누면, 다른 구성을 변경하지 않고도 계산은 이론적으로 이전의 1/m로 줄어듭니다.
Depthwise Separable Convolution
Depthwise separable convolution,는 그룹 합성곱의 특수한 경우로, 그룹 수를 채널 수와 같게 설정한 것입니다. 일반적으로 1×1 필터를 사용하여 차원 변환을 하여 최종 출력이 원하는 채널 수를 가지도록 합니다. Depthwise separable convolution을 사용하면 계산량을 O(dk²c)에서 O(ck²) + O(dc)로 줄일 수 있습니다. 이 아이디어는 최근 객체 탐지 및 세밀한 분류에 적용되었습니다.
Bottle-Neck Design
병목 디자인(Bottle-neck design)은 신경망에서 이전 층에 비해 노드가 적은 층을 의미합니다. 최근 몇 년 동안 병목 디자인은 경량 네트워크를 설계하는 데 널리 사용되고 있습니다. 이 방법들 중에서, 탐지기의 입력 층을 압축하여 탐지의 초기 단계부터 계산량을 줄이는 방식이 있습니다. 또한 특징 맵을 압축하여 더 얇게 만들어 이후 탐지 속도를 높일 수 있습니다.
Detection With NAS
NAS(Neural Architecture Search)는 딥 러닝 기반 탐지기들이 점점 더 복잡해짐에 따라 핸드크래프트된 네트워크 아키텍처와 훈련 파라미터에 의존하는 문제를 해결하기 위해 사용됩니다. NAS는 주로 적절한 후보 네트워크 공간을 정의하고, 빠르고 정확하게 탐색하는 전략을 개선하며, 낮은 비용으로 탐색 결과를 검증하는 것에 중점을 둡니다. 탐지 모델을 설계할 때, NAS는 네트워크 백본과 앵커 박스 설계에서 사람의 개입을 줄이는 데 도움을 줄 수 있습니다.

[18] R. Girshick, “Fast R-CNN,” Proc. IEEE Int. Conf. Comput. Vis. (ICCV), Dec. 2015, pp. 1440–1448.

[19] S. Ren, K. He, R. Girshick, J. Sun, “Faster R-CNN: 지역 제안 네트워크를 이용한 실시간 객체 탐지,” Proc. Adv. Neural Inf. Process. Syst., 2015, pp. 91–99.

[124] Q. Zhu, M.-C. Yeh, K.-T. Cheng, and S. Avidan, "히스토그램 방향 기울기 캐스케이드를 이용한 빠른 인간 탐지," Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit.

[10] P. Viola, M. Jones, “단순 특징들의 부스팅 계단을 이용한 빠른 객체 탐지,” Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit. (CVPR), Dec. 2001, pp. 1–9.

[130] S. Han, H. Mao, 및 W. J. Dally, “딥 압축: 가지치기, 훈련된 양자화 및 허프만 코딩을 통한 심층 신경망 압축,” 2015년, arXiv:1510.00149.

[132] Z. Qin et al., “ThunderNet: 모바일 장치에서 실시간 일반 객체 탐지를 위한 접근법,” IEEE/CVF Int. Conf. Comput. Vis. (ICCV) 프로시딩, 2019년 10월, 6718–6727페이지.

[133] R. J. Wang, X. Li, 및 C. X. Ling, “Pelee: 모바일 장치에서 실시간 객체 탐지 시스템,” Adv. Neural Inf. Process. Syst. 프로시딩, S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, 및 R. Garnett, 편집. Red Hook, NY, USA: Curran Associates, 2018년, 1967–1976페이지.

[50] Z. Li, C. Peng, G. Yu, X. Zhang, Y. Deng, and J. Sun, "Light-head R-CNN: 2단계 객체 탐지기의 방어," 2017, arXiv:1711.07264.

[80] X. Zeng, W. Ouyang, B. Yang, J. Yan, 및 X. Wang, “객체 검출을 위한 게이티드 양방향 CNN,” 유럽 컴퓨터 비전 컨퍼런스 (ECCV), 스위스 잠, Springer, 2016, pp. 354–369.

[140] X. Zhang, X. Zhou, M. Lin, 및 J. Sun, “ShuffleNet: 모바일 장치를 위한 매우 효율적인 합성곱 신경망,” 2017년, arXiv:1707.01083.

[141] G. Huang, S. Liu, L. van der Maaten, 및 K. Q. Weinberger, “CondenseNet: 학습된 그룹 합성곱을 사용하는 효율적인 DenseNet,” Group, 제3권, 12호, 11페이지, 2017년.

[142] F. Chollet, “Xception: 깊이별 분리 가능한 합성곱을 통한 심층 학습,” 2016년, arXiv:1610.02357.

[143] A. G. Howard et al., “MobileNets: 모바일 비전 응용을 위한 효율적인 합성곱 신경망,” 2017년, arXiv:1704.04861.

[144] M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, 및 L.-C. Chen, “MobileNetV2: 반전된 잉여 및 선형 병목,” IEEE/CVF Conf. Comput. Vis. Pattern Recognit., 2018년 6월, 4510–4520페이지.

[145] Y. Li, J. Li, W. Lin, 및 J. Li, “Tiny-DSOD: 자원 제한적인 사용을 위한 경량 객체 탐지,” 2018년, arXiv:1807.11013.

[50] Z. Li, C. Peng, G. Yu, X. Zhang, Y. Deng, and J. Sun, "Light-head R-CNN: 2단계 객체 탐지기의 방어," 2017, arXiv:1711.07264.

[149] Y. Chen, T. Yang, X. Zhang, G. Meng, X. Xiao, 및 J. Sun, “DetNAS: 객체 탐지를 위한 백본 검색,” 2019년, arXiv:1903.10979.

[150] H. Xu, L. Yao, Z. Li, X. Liang, 및 W. Zhang, “Auto-FPN: 분류를 넘은 객체 탐지를 위한 자동 네트워크 아키텍처 적응,” IEEE/CVF Int. Conf. Comput. Vis. (ICCV) 프로시딩, 2019년 10월, 6649–6658페이지.

[151] G. Ghiasi, T.-Y. Lin, 및 Q. V. Le, “NAS-FPN: 객체 탐지를 위한 확장 가능한 기능 피라미드 아키텍처 학습,” IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR) 프로시딩, 2019년 6월, 7036–7045페이지.

[152] J. Guo et al., “Hit-detector: 객체 탐지를 위한 계층적 삼위일체 아키텍처 검색,” IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR) 프로시딩, 2020년 6월, 11405–11414페이지.

E. Numerical Acceleration
수치적 가속(Numerical acceleration)은 객체 탐지기를 구현의 가장 낮은 수준에서 가속화하는 것을 목표로 합니다.

1. Speedup With Integral Image
적분 이미지(Integral image)는 이미지 처리에서 중요한 방법으로, 이미지 하위 영역에 대한 합을 빠르게 계산하는 데 도움이 됩니다. 적분 이미지의 본질은 신호 처리에서 컨볼루션의 적분-미분 분리성입니다:

이 방정식의 오른쪽 부분을 통해 컨볼루션을 가속화할 수 있습니다. 적분 이미지는 객체 탐지에서 색 히스토그램 및 그래디언트 히스토그램 등과 같은 일반적인 특징들을 가속화하는 데에도 사용됩니다. 적분 HOG 맵을 계산하여 HOG를 가속화하는 일반적인 예가 있으며, 이는 보행자 탐지에서 수십 배의 가속을 달성하면서 정확도 손실 없이 수행됩니다.

2. Speedup in Frequency Domain
주파수 도메인에서의 가속(Speedup in Frequency Domain)은 객체 탐지에서 중요한 수치적 연산인 컨볼루션을 가속화하는 방법입니다. 선형 탐지기의 탐지는 특징 맵과 탐지기의 가중치 간의 창별 내적으로 볼 수 있으며, 이는 컨볼루션으로 구현할 수 있습니다. 푸리에 변환은 컨볼루션을 가속화하는 매우 실용적인 방법으로, 신호 처리의 컨볼루션 정리를 이론적 기초로 합니다. 즉, 적절한 조건 하에서 두 신호의 컨볼루션의 푸리에 변환 FF은 그들의 점별 곱이 됩니다.

3. Vector Quantization
벡터 양자화(Vector Quantization, VQ)는 신호 처리에서 고전적인 양자화 방법으로, 많은 데이터 집합의 분포를 작은 집합의 프로토타입 벡터로 근사화하는 것을 목표로 합니다. 이 방법은 데이터 압축과 객체 탐지에서 내적 연산을 가속화하는 데 사용될 수 있습니다. 벡터 양자화는 데이터의 패턴을 더 작은 차원으로 근사시키기 때문에, 내적 연산을 빠르게 처리하고 계산을 가속화할 수 있습니다. 이 방식은 객체 탐지 모델이 더욱 효율적으로 동작하도록 도와줍니다.

[10] P. Viola, M. Jones, “단순 특징들의 부스팅 계단을 이용한 빠른 객체 탐지,” Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern

[124] Q. Zhu, M.-C. Yeh, K.-T. Cheng, and S. Avidan, "히스토그램 방향 기울기 캐스케이드를 이용한 빠른 인간 탐지," Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit.

[164] M. A. Sadeghi 및 D. Forsyth, 벡터 양자화를 이용한 평가, "Advances in Neural Information Processing Systems", 2013, pp. 2949-2957.

IV. RECENT ADVANCES IN OBJECT DETECTION

지난 20년간 새로운 기술들이 계속해서 등장하면서 객체 감지에 상당한 영향을 미쳤습니다. 그러나 그 기본 원칙과 논리는 변하지 않았습니다. 앞서 다룬 섹션들에서는 지난 20년 간의 기술 발전을 대규모 시간 범위에서 소개하여 객체 감지를 이해하는 데 도움을 주었습니다. 이 섹션에서는 최근 몇 년 동안의 최신 알고리즘에 대해 다루며, 최신 기술의 발전을 더 집중적으로 설명하여 독자들이 객체 감지를 잘 이해할 수 있도록 돕겠습니다.

A. 슬라이딩 윈도우 탐지를 넘어서 (Beyond Sliding Window Detection)

객체 탐지 문제는 종종 쌍으로 이루어진 키 포인트 로컬라이제이션 문제로 재구성될 수 있습니다. 예를 들어, 객체의 위치는 그라운드 트루스 박스의 왼쪽 상단과 오른쪽 하단 코너로 정의됩니다. 최근 연구들은 코너에 대한 히트맵을 예측하거나, 모서리, 중심점, 극단점 등을 추가적으로 활용하여 성능을 개선하려고 했습니다. 또 다른 접근은 객체를 점으로 보고 객체의 속성(예: 높이, 너비)을 그룹화 없이 직접 예측하는 것입니다. 이 방식은 세멘틱 세그멘테이션 프레임워크에서 구현할 수 있으며, 멀티스케일 앵커 박스 설계 없이 객체 탐지를 집합 예측 문제로 다룹니다. 대표적인 예로는 DETR이 있습니다.

B. 회전 및 크기 변화에 대한 불변한 감지 (Robust Detection of Rotation and Scale Changes)

회전 강건 탐지 (Rotation Robust Detection)
- 객체 회전은 다양한 분야에서 발생하며, 이를 해결하기 위한 방법으로 데이터 증강과 회전 불변 손실 함수 설계가 인기를 끌고 있습니다. 최근에는 ROI 풀링을 극 좌표계에서 수행하여 회전 변화에 강한 특성을 만들어내는 방식이 연구되었습니다.
크기 강건 탐지 (Scale Robust Detection)
- 크기 불균형 문제를 해결하기 위해, 이미지 피라미드나 크기 정규화 기법이 사용되고 있습니다. SNIP와 SNIPER는 선택된 크기에서만 손실을 역전파하거나, 이미지를 서브영역으로 잘라 리사이즈하여 효율성을 높입니다.
- 적응적 확대(adaptive zoom-in) 기술을 통해 작은 객체를 "더 큰 객체"로 확대하여 작은 객체의 탐지를 개선하려는 접근도 있습니다.

C. 더 나은 백본을 통한 탐지 (Detection With Better Backbones)

탐지기의 정확도와 속도는 특징 추출 네트워크(백본)에 크게 의존합니다. 최근 Transformer 기반의 백본이 많은 주목을 받고 있으며, ResNet, CSPNet, SwinTransformer 등이 대표적입니다. Transformer의 특징 추출 능력은 점차 CNN을 능가하고 있습니다. 이 사진은 세 가지 잘 알려진 탐지 시스템인 Faster RCNN , R-FCN , SSD이 서로 다른 백본을 사용할 때의 탐지 정확도를 보여줍니다.

[17] K. He, X. Zhang, S. Ren, J. Sun, “시각적 인식을 위한 심층 합성곱 신경망에서의 공간 피라미드 풀링,” Proc. ECCV. Cham, Switzerland: Springer, 2014, pp. 346–361.

D. 위치 정확도 향상 (Improvements of Localization)

바운딩 박스 보정 (Bounding Box Refinement): 위치 정확도를 향상시키는 가장 직관적인 방법은 바운딩 박스 보정입니다. 이는 탐지 결과의 후처리(postprocessing)로 볼 수 있습니다. 최근의 한 방법은 탐지 결과를 반복적으로 BB 회귀기(BB regressor)에 입력하여 예측이 올바른 위치와 크기로 수렴할 때까지 계속하는 방법입니다. 그러나 일부 연구자들은 이 방법이 위치 정확도의 단조성(monotonicity)을 보장하지 않으며, 여러 번 보정을 적용하면 오히려 위치 정확도가 저하될 수 있다고 주장하고 있습니다.

정확한 위치 추정을 위한 새로운 손실 함수 (New Loss Functions for Accurate Localization): 대부분의 현대 탐지기에서는 객체 위치를 좌표 회귀(coordinate regression) 문제로 간주합니다. 그러나 이 방법의 단점은 명백합니다. 첫째, 회귀 손실은 최종 평가(final evaluation)와 일치하지 않으며, 특히 비율이 매우 큰 객체(objects with very large aspect ratios)에 대해 적합하지 않습니다. 둘째, 전통적인 BB 회귀 방법은 위치 추정에 대한 신뢰도를 제공하지 않습니다. 여러 개의 바운딩 박스가 서로 겹칠 경우, 이는 비최대 억제(nonmaximum suppression)에서 실패를 초래할 수 있습니다.

이러한 문제들은 새로운 손실 함수를 설계하여 완화할 수 있습니다. 가장 직관적인 개선 방법은 IoU(Intersection over Union)를 위치 추정 손실로 직접 사용하는 것입니다. 또한 일부 연구자들은 확률적 추론 프레임워크(probabilistic inference framework) 아래에서 위치 추정을 개선하려 시도했습니다. 이전의 방법들이 직접적으로 박스 좌표를 예측하는 것과는 달리, 이 방법은 바운딩 박스 위치의 확률 분포(probability distribution of bounding box location)를 예측합니다.

바운딩 박스 보정 (Bounding Box Refinement)
- 바운딩 박스를 반복적으로 보정하는 방법이 있으며, 이를 통해 예측 위치가 올바른 위치로 수렴하도록 합니다. 그러나 이 방식은 위치 정확도의 단조성을 보장하지 않는다는 비판도 있습니다.
정확한 위치 추정을 위한 새로운 손실 함수 (New Loss Functions for Accurate Localization)
- 좌표 회귀 방식의 단점을 해결하기 위해 IoU를 직접 위치 추정 손실로 사용하는 방법이 연구되고 있습니다. 또한 확률적 추론 프레임워크를 통해 바운딩 박스의 위치를 확률 분포로 예측하는 접근도 있습니다.

E. 세그멘테이션 손실을 통한 학습 (Learning With Segmentation Loss)

세그멘테이션 손실을 활용하여 객체 탐지 성능을 향상시키는 방법이 제시되고 있습니다. 세그멘테이션 네트워크를 고정된 특징 추출기로 사용하거나, 탐지기와 세그멘테이션을 멀티태스크 손실 함수로 학습시키는 방법이 있습니다. 후자는 추론 단계에서 세그멘테이션 브랜치를 제거할 수 있는 장점이 있지만, 학습 시 픽셀 수준의 이미지 주석이 필요합니다.

F. 적대적 학습 (Adversarial Training)

GAN을 활용한 적대적 학습이 객체 탐지에 적용되고 있으며, 특히 작은 객체나 가려진 객체 탐지에서 유용합니다. GAN을 통해 작은 객체와 큰 객체 간의 표현 차이를 좁히거나, 가려짐 마스크를 생성하여 가려진 객체를 탐지하는 방식이 사용됩니다.

G. 약하게 지도된 객체 탐지 (Weakly Supervised Object Detection)

약하게 지도된 객체 탐지(WSOD)는 이미지 수준 주석만으로 객체 탐지기를 학습시켜 데이터 라벨링에 대한 의존성을 줄이려는 접근입니다. 다중 인스턴스 학습(MIL)과 클래스 활성화 맵(CAM)을 활용하여 객체 탐지를 학습하는 방식이 대표적입니다. CAM은 CNN이 객체 위치 추정 능력을 가질 수 있도록 하는 중요한 방법으로, 이미지 수준 라벨만으로도 위치 예측을 가능하게 합니다.

H. 도메인 적응을 통한 탐지 (Detection With Domain Adaptation)

대부분의 객체 탐지기는 독립 동일 분포(i.i.d.) 데이터를 기반으로 학습되며, 이는 우도 추정(likelihood estimation) 과정으로 볼 수 있습니다. 그러나 실제 세계의 많은 응용 프로그램에서는 비-i.i.d. 데이터(non-i.i.d. data)가 존재하여, 도메인 간의 격차가 큰 도전 과제가 됩니다. 이러한 문제를 해결하기 위해서는 도메인 적응(domain adaptation)이 중요한 역할을 할 수 있습니다. 도메인 적응은 다른 데이터셋 간의 차이를 줄여 모델이 다양한 도메인에서 잘 작동하도록 돕습니다.

도메인 적응을 통한 객체 탐지에서는 도메인 불변 특징 표현(domain-invariant feature representation)을 얻는 것이 핵심입니다. 이를 위해 다양한 방법들이 사용되었습니다:

특징 정규화 (Feature Regularization):
- 이미지 수준, 카테고리 수준, 또는 객체 수준에서의 특징 정규화 기법들이 도메인 적응에 활용됩니다. 이는 모델이 각 도메인 간의 차이를 최소화하도록 돕습니다.
적대적 학습 (Adversarial Training):
- 적대적 학습은 소스 도메인과 타겟 도메인 간의 격차를 줄이는 데 유용한 기법으로, Generative Adversarial Networks (GANs)을 활용하여 도메인 불변의 특징을 학습하는 방식입니다.
사이클 일관성 변환 (Cycle-consistent Transformation):
- 사이클 일관성 변환은 소스 도메인과 타겟 도메인 간의 차이를 줄이기 위해 적용됩니다. 이 방법은 두 도메인 간 변환을 거쳐 원래의 도메인으로 되돌리는 과정에서 특징을 일관되게 유지하려고 합니다. 이를 통해 도메인 간의 불일치를 줄이고, 모델이 두 도메인에서 잘 작동할 수 있도록 합니다.

결론적으로, 도메인 적응 기법은 다양한 도메인에서 객체 탐지기의 성능을 개선하는 데 중요한 역할을 합니다. 이러한 접근 방식들은 도메인 간의 격차를 줄이는 동시에, 더 넓은 범위의 데이터에 적응할 수 있도록 모델을 발전시키고 있습니다.

[26] H. Law, J. Deng, “CornerNet: 객체를 쌍으로 된 키포인트로 탐지,” Proc. Eur. Conf. Comput. Vis. (ECCV), Sep. 2018, pp. 734–750.

[187] Z. Cai and N. Vasconcelos, “Cascade R-CNN: Delving into high quality object detection,” 2017, arXiv:1712.00726.

[105] J. Yu, Y. Jiang, Z. Wang, Z. Cao, and T. Huang, "UnitBox: 고급 객체 탐지 네트워크,"

[191] S. Gidaris and N. Komodakis, “LocNet: Improving localization accuracy for object detection,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2016, pp. 789–798.

V. CONCLUSION AND FUTURE DIRECTIONS

지난 20년 동안 객체 탐지에서 중요한 성과들이 이루어졌습니다. 이 기사에서는 그 동안의 20년 역사 속에서 중요한 탐지기법, 주요 기술, 속도 향상 방법, 데이터셋 및 평가 지표 등을 폭넓게 리뷰합니다. 또한 독자들이 위에서 언급된 내용 외에 더 많은 통찰을 얻을 수 있도록, 향후 발전 가능성이 있는 몇 가지 방향을 제시합니다.

경량화된 객체 탐지: 이 연구 방향은 저전력 엣지 장치에서 탐지 추론을 빠르게 실행하는 것을 목표로 합니다. 중요한 응용 분야로는 모바일 증강 현실, 자율 주행, 스마트 시티, 스마트 카메라, 얼굴 인식 등이 있습니다. 최근 몇 년간 많은 노력이 있었지만, 여전히 기계와 인간의 시각 간에는 큰 속도 차이가 남아 있으며, 특히 작은 객체를 탐지하거나 다중 소스 정보를 이용한 탐지에는 큰 도전이 있습니다.

엔드 투 엔드 객체 탐지: 일부 방법들은 이미지에서 박스로 바로 탐지할 수 있는 완전한 엔드 투 엔드 방식(일대일 레이블 할당 훈련)을 개발했지만, 대다수는 여전히 일대다 레이블 할당 방식을 사용하며, 비최대 억제(non-maximum suppression) 작업을 별도로 설계합니다. 이 주제에 대한 미래 연구는 높은 탐지 정확도와 효율성을 동시에 유지하는 엔드 투 엔드 파이프라인을 설계하는 데 집중할 수 있습니다.

작은 객체 탐지: 대규모 장면에서 작은 객체를 탐지하는 것은 오랜 도전 과제였습니다. 이 연구 방향의 잠재적인 응용 분야로는 군중 속 사람 수나 야생 동물의 개체 수를 셀 때나 위성 이미지에서 군사 목표를 탐지하는 것이 있습니다. 향후 방향으로는 시각적 주의 메커니즘의 통합과 고해상도 경량 네트워크 설계가 있을 수 있습니다

3D 객체 탐지: 최근 2D 객체 탐지에서 많은 발전이 있었지만, 자율 주행과 같은 응용 프로그램은 객체의 위치와 자세를 3D 세계에서 인식할 수 있어야 합니다. 객체 탐지의 미래는 3D 세계와 다중 센서(예: RGB 이미지 및 3D LiDAR 포인트)를 활용하는 데 더 많은 관심을 기울일 것입니다

비디오에서의 탐지: HD 비디오에서 실시간 객체 탐지/추적은 비디오 감시 및 자율 주행에서 매우 중요합니다. 전통적인 객체 탐지기는 보통 이미지별 탐지를 위해 설계되며, 비디오 프레임 간의 상관 관계를 무시하는 경우가 많습니다. 계산 제한 내에서 공간적 및 시간적 상관 관계를 탐구하여 탐지를 개선하는 것은 중요한 연구 방향입니다.

크로스 모달리티 탐지: 여러 소스/모달리티의 데이터를 사용하는 객체 탐지(예: RGB-D 이미지, LiDAR, 흐름, 소리, 텍스트, 비디오 등)는 인간의 지각처럼 더 정확한 탐지 시스템을 위해 중요합니다. 여기서 해결해야 할 문제들로는 잘 훈련된 탐지기를 다른 모달리티의 데이터로 어떻게 이전할지, 정보를 융합하여 탐지를 향상시키는 방법 등이 있습니다.

오픈 월드 탐지: 도메인 밖의 일반화, 제로 샷 탐지 및 점진적 탐지는 객체 탐지에서 떠오르는 주제입니다. 대부분은 치명적인 망각을 줄이거나 보조 정보를 활용하는 방법을 고안했습니다. 인간은 환경에서 알려지지 않은 객체들을 발견하는 본능을 가지고 있습니다. 대응하는 지식(레이블)이 주어지면, 인간은 이를 통해 새로운 지식을 배우고 그 패턴을 유지할 수 있습니다. 그러나 현재의 객체 탐지 알고리즘은 알려지지 않은 객체들의 탐지 능력을 잡는 데 어려움이 있습니다. 오픈 월드 탐지에서는 감독 신호가 명시적으로 주어지지 않거나 부분적으로 주어졌을 때, 알려지지 않은 객체 범주를 발견하는 것을 목표로 하며, 로봇공학이나 자율 주행과 같은 응용 분야에서 큰 가능성을 가지고 있습니다.

기술 발전의 고속 도로 위에 서서, 이 기사가 독자들이 객체 탐지의 전체 로드맵을 구축하고, 이 빠르게 발전하는 연구 분야의 미래 방향을 찾는 데 도움이 되기를 바랍니다.

[226] B. Bosquet, M. Mucientes, and V. M. Brea, “STDNet-ST: 소형 객체 탐지를 위한 시공간 ConvNet,” 패턴 인식, 제 116권, 2021년 8월, 아티클 번호 107929.

[227] C. Yang, Z. Huang, and N. Wang, “QueryDet: 고해상도 소형 객체 탐지를 가속화하기 위한 연속 희소 쿼리,” IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 (CVPR), 2022년 6월, pp. 13668–13677.

[228] P. Sun et al., “엔드 투 엔드 객체 탐지의 핵심 요소,” 국제 기계 학습 컨퍼런스, 2021, pp. 9934–9944.

[229] X. Zhou et al., “산업 사이버-물리 시스템을 이용한 스마트 제조에서의 지능형 소형 객체 탐지,” IEEE 산업 정보학 트랜잭션, 제 18권, 제 2호, pp. 1377–1386, 2022년 2월.

[230] G. Cheng, X. Yuan, X. Yao, K. Yan, Q. Zeng, and J. Han, “대규모 소형 객체 탐지를 향하여: 조사 및 벤치마크,” 2022, arXiv:2207.14096.

[231] Y. Wang, V. C. Guizilini, T. Zhang, Y. Wang, H. Zhao, and J. Solomon, “DETR3D: 3D 객체 탐지를 위한 다중 시점 이미지에서 3D-2D 쿼리 방식,” 로봇 학습 컨퍼런스, 2022, pp. 180–191.

[232] Y. Wang et al., “비전 및 포인트 클라우드 3D 객체 탐지를 위한 브릿지 트랜스포머,” IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 (CVPR), 2022년 6월, pp. 12114–12123.

[233] X. Cheng et al., “비디오 위장된 객체 탐지를 위한 암묵적 모션 처리,” IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 (CVPR), 2022년 6월, pp. 13864–13873.

[234] Q. Zhou et al., “TransVOD: 공간-시간 트랜스포머를 이용한 엔드-투-엔드 비디오 객체 탐지,” 2022, arXiv:2201.05047.

리뷰 후기

이 논문을 리뷰하면서 객체 탐지 분야에서의 최근 발전들이 매우 흥미롭고, 다양한 기술들이 결합되어 성능 향상에 기여하고 있다는 점이 인상 깊었다. 특히, 전통적인 기법들에 대한 개선뿐만 아니라 새로운 아이디어와 접근법들이 제시되어, 객체 탐지 시스템의 역사를 전체적으로 보여준 점이 매우 유익했다.

이러한 다양한 기술들이 서로 결합되어, 실제 산업 및 실생활 문제를 해결하는 데 중요한 역할을 할 수 있음을 느꼈다. 또한, 앞으로의 연구 방향을 제시하며, 경량화된 모델과 오픈 월드 탐지, 크로스 모달리티 탐지와 같은 새로운 도전 과제들을 다루고 있어, 향후 연구자들에게 중요한 통찰을 제공한다고 생각된다.

출처

'Computer Vision > Paper reviews' 카테고리의 다른 글

[논문 리뷰] A Review on YOLOv8 and Its Advancements (1)	2024.12.29
[논문 리뷰] Survey of Rule-Based Systems (2)	2024.12.28
[논문 리뷰] Object Detection in 20 Years: A Survey 1 (0)	2024.12.24
[논문 리뷰] A CNN-Based Transfer Learning Method for Defect Classification in Semiconductor Manufacturing (3)	2024.12.24
[논문 리뷰] Evaluating the Evolution of YOLO (You Only Look Once) Models: A Comprehensive Benchmark Study of YOLO11 and Its Predecessors (6)	2024.12.23

객체 탐지의 기술적 발전 (Technical Evolution in Object Detection)

III. Speedup of Detection

IV. RECENT ADVANCES IN OBJECT DETECTION

V. CONCLUSION AND FUTURE DIRECTIONS

'Computer Vision > Paper reviews' 카테고리의 다른 글

티스토리툴바