[ILSVRC 논문 정리해 보기] AlexNet (ImageNet Classification with Deep Convolutional Neural Networks)

ILSVRC(ImageNet Large-Scale Visual Recognition Challenge)이란?

- 2010년 ~ 2017년 매년 개최된 국제 컴퓨터 비전 경진대회로 대규모 데이터셋(ImageNet)을 기반으로 이미지 인식 성능을 겨루었던 역사적인 대회

- 2012년부터 AlexNet의 등장으로 Deep learning의 시대를 열었음

- 컨볼루셔널 뉴럴 네트워크(CNN) 구조들이 도출된 역사적인 대회

참고하자면 이미지넷 데이터셋의 규모는

학습용 이미지: 120만 장
카테고리(class): 1,000개 이상
성능 검증용 데이터셋: 총 15만 개 (val 5만 + test 10만장)

AlexNet

ILSVRC 2012년 대회 우승작 AlexNet

이전 인공지능 기법들은 정확도를 기껏해야 1% 정도 향상시키는 데 그쳤지만, AlexNet은 딥러닝 기술을 도입하여 성능을 비약적으로 끌어올림

기존 모델들은 사람의 직관이 포함된 "Handcrafted Feature" (수동으로 설계된 특징, SIFT 알고리즘 같은)를 사용했지만 전통적 컴퓨터 비전(feature engineering 기반 SIFT, HOG 등)을 CNN을 이용해 완전히 압도함

AlexNet 이후 "Data-driven" 방식, 즉 많은 양의 데이터로부터 학습을 통해 특징을 추출하는 방법이 유행하기 시작함.

AlexNet은 딥러닝 기초 수업에서 배우는 CNN의 기본적인 내용들이 대부분 여기서 유래했음을 보여줌

총 5개의 컨볼루셔널 레이어와 3개의 Fully Connected Layer로 구성된 총 8개의 레이어를 가진 단순한 구조이다.

파라미터 6천만개, 당시 학습에 5-6일이 걸렸다고 한다.. ㄷㄷ

모델구조

입력 이미지: 227x227크기의 3채널이미지
첫 번째 컨볼루션 레이어:
1. 커널: 11x11
2. 스트라이드: 4
3. 커널 수: 96개
4. 출력 크기: 55x55x96(패딩 없음)
오버래핑 맥스 풀링:
1. 공간 영역 크기 감소: 55x55에서 27x27로 줄어든다.
두 번째 컨볼루션 레이어:
1. 커널: 5x5
2. 커널 수: 256개
3. 스트라이드: 1(패딩 적용으로 공간 크기 유지)
4. 출력 크기: 27x27x256
오버래핑 맥스 풀링:
1. 공간 영역 크기 감소: 27x27에서 13x13으로 줄어든다.
세 번째 컨볼루션 레이어:
1. 커널: 3x3
2. 커널 수: 384개
3. 출력 크기: 13x13x384
네 번째 컨볼루션 레이어:
1. 커널: 3x3
2. 커널 수: 384개
3. 출력 크기: 13x13x384(패딩 1 적용으로 공간 크기 유지)
다섯 번째 컨볼루션 레이어:
1. 커널: 3x3
2. 커널 수: 256개
3. 출력 크기: 13x13x256
오버래핑 맥스 풀링:
1. 공간 영역 크기 감소: 13x13에서 6x6으로 줄어든다.
Fully Connected Layer (FC Layer):
1. 지역적 특징 추출 후, Feature Map을 벡터로 펼쳐(Flatten) 전역적 특징을 분석한다.
2. 첫 번째 FC Layer: 9216개의 뉴런을 4096개로 변환한다.
3. 두 번째 FC Layer: 4096개의 뉴런을 4096개로 유지하며 추가 가공한다.
4. 마지막 FC Layer: 4096개의 Feature Vector를 ImageNet의 1000개 클래스에 대한 확률로 변환하기 위해 소프트맥스(Softmax)를 통과시킨다.

AlexNet의 핵심 기법

ReLU 활성화 함수 도입, Dropout, Data Augmentation, Local Response Normalization (LRN), GPU 병렬 학습 등등 실용적 기법으로 기존 SIFT/HOG 기반 기법들을 압도하며 딥러닝 시대를 연 CNN 아키텍처

ReLU (Rectified Linear Unit)

목적: 비선형성 추가를 위해 사용되었다.
기존 활성화 함수의 문제점:
1. 시그모이드 계열(로지스틱 펑션, 하이퍼볼릭 탄젠트)은 미분할수록 최댓값이 줄어들어 Vanishing Gradient (기울기 소실)문제가 발생한다.
2. 로지스틱 펑션은 Non-zero centered문제도 있다.
3. 하이퍼볼릭 탄젠트는 Saturation(포화) 구간이 존재하여 미분값이 0에 가까워진다.
4. 이러한 문제로 인해 기존 함수들은 트레이닝 속도가 느리고 수렴이 더디다.
ReLU의 장점:
1. max(0, X) 연산으로, 입력값이 0보다 크면 선형적으로 출력하고, 0보다 작으면 0으로 버린다.
2. 비선형 구간이 존재하여 활성화 함수로 사용 가능하다.
3. Converging이 빠르다 (수렴 속도가 빠르다).
4. Vanishing Gradient 문제를 방지하여 네트워크가 깊어져도 학습이 용이하다.
실험 결과: CIFAR-10 데이터셋에서 ReLU를 사용했을 때 하이퍼볼릭 탄젠트보다 에러율이 빠르게 감소하며 수렴 속도가 빠름을 확인하였다.

Non-zero centered?

데이터나 분포의 평균이 0이 아닌 상태, zero-centered일 때 학습이 안정적이라고 함 ( 하지만 의미 없거나 예외도 있음 )

Zero-centered

데이터(또는 feature)의 평균이 0에 가까운 상태.
예:x=[−2,−1,0,1,2]x = [ -2, -1, 0, 1, 2 ]평균 = 0 → zero-centered 데이터.
장점:
- Gradient Descent가 빠르게 수렴 (업데이트 방향이 균형 잡힘).
- Weight 업데이트 시 편향(bias)이 줄어듦.
- 신경망에서 활성화 함수 대칭성 활용 용이 (특히 tanh 같은 경우).

Non-zero centered

데이터의 평균이 0이 아닌 상태.
예:x=[1,2,3,4,5]x = [1, 2, 3, 4, 5]평균 = 3 → non-zero centered 데이터.
단점:
- Gradient가 한쪽 방향으로 치우침 → 학습이 비효율적.
- 특히 sigmoid, tanh 같은 대칭적인 활성화 함수를 쓸 때 문제 커짐.
- Weight 업데이트가 균형을 잃고, 최적화가 느려짐.

오버래핑 풀링 (Overlapping Pooling)

기존 풀링은 2x2 윈도우에서 스트라이드 2로 이동하며 맥스 값을 뽑아 공간 크기를 절반으로 줄임, 하지만오버래핑 풀링은 스트라이드를 1로 하여 윈도우가 한 칸씩 이동하며 맥스 값을 뽑는다

풀링 영역이 겹치면서 정보를 더 많이 유지하고, 일반적인 풀링보다 출력 피처맵의 크기가 커진다.

드롭아웃 (Dropout)

목적: 과적합 (Overfitting) 방지및 정규화 (Regularization)
작동 방식:
1. 학습 시, 뉴런 간의 연결선(엣지) 중 일부를 랜덤하게 제외(드롭)하고, 일부 뉴런만 살려 학습을 진행한다.
2. 추론 시에는 모든 연결을 사용한다.
효과:
1. 드롭아웃을 적용하면 학습된 필터가 특정한 패턴에 집중하는 경향을 보인다 (Sparsity 증가).
2. 이는 L1 놈 정규화와 유사하게, 중요한 가중치에 집중하고 불필요한 가중치를 줄여 과적합을 방지하는 효과를 가져온다.

RECAP

https://bigdaheta.tistory.com/104

Regularization(정규화/규제화) 기법 - Ridge(L2 norm) / LASSO(L1 norm)

00. What is a good model? '좋은 모델'이란 다음과 같은 조건을 만족시켜야 한다. 1) 학습 성능이 좋은 모델 - 즉, 현재 데이터(train set)를 잘 설명하는 모델 - train set에 대한 에러가 적은 모델 - training erro

bigdaheta.tistory.com

LRN

목적: 피처 정규화 (Normalization)
원리: 사람 뇌의 Lateral Inhibition(측면 억제) 현상을 모방한 기법이다.
1. 어떤 자극이 들어왔을 때, 해당 자극 주변의 자극은 억제하고 활성화된 자극만 살리는 방식이다.
2. 이는 헐만 그리드(Hermann Grid) 착시 현상과 유사하다. ( 저 그리드에 점은 없지만 착시로 보임 )
현재 상태: 현재는 사용되지 않는 Deprecated (퇴물)기법이다.
대체 기법: 배치 노멀라이제이션(Batch Normalization), 그룹 노멀라이제이션(Group Normalization), 레이어 노멀라이제이션(Layer Normalization) 등이 더 많이 사용된다.

데이터 증강 (Data Augmentation):

목적:
1. 데이터셋 부족 문제를 해결하고, 모델의 성능을 높인다.
2. 데이터셋 크기를 키워 과적합을 방지한다.
3. 모델이 회전(Rotation)이나 크기(Scale) 변화에도 강건하게(Invariant) 작동하도록 능력을 부여한다.
AlexNet에서 사용된 기법:
1. 좌우 반전 (Mirroring): 원본 사진을 좌우 반전시켜 데이터셋에 추가 학습시킨다.
2. 랜덤 크롭 (Random Cropping): 원본 사진에서 무작위로 잘라낸 부분을 데이터셋에 추가 학습시킨다.

https://en.wikipedia.org/wiki/AlexNet

AlexNet - Wikipedia

From Wikipedia, the free encyclopedia Influential 2012 deep convolutional neural network AlexNet architecture and a possible modification. At the top is half of the original AlexNet, which is divided into two halves, one for each GPU. At the bottom is the

en.wikipedia.org

'Computer Vision > Paper reviews' 카테고리의 다른 글

[Object Detection] SPPNet과 Fast R-CNN (0)	2025.07.17
[Object Detection] Two-Stage Object Detection – R-CNN (0)	2025.07.10
[논문 리뷰] ImageNet Classification with Deep ConvolutionalNeural Networks (AlexNet) (0)	2025.02.02
[논문 리뷰] You Only Look Once: Uniﬁed, Real-Time Object Detection 2 (0)	2025.01.25
[논문 리뷰] You Only Look Once: Uniﬁed, Real-Time Object Detection 1 (0)	2025.01.23