AlexNet: 두 판 사이의 차이
(새 문서: AlexNet(영어: AlexNet)은 2012년 ImageNet 대회(ILSVRC 2012)에서 우승하며 딥러닝 기반 이미지 인식의 시대를 연 컨볼루션 신경망(CNN) 모델이다. 토론토 대학교의 알렉스 크리제브스키(Alex Krizhevsky), 일야 서츠케버(Ilya Sutskever), 제프리 힌턴(Geoffrey Hinton)에 의해 개발되었다. ==개요== AlexNet은 대규모 이미지 데이터셋(ImageNet)을 학습하여 객체 분류 문제를 해결한 모델로, 당시 기...) |
(차이 없음)
|
2025년 10월 25일 (토) 05:11 기준 최신판
AlexNet(영어: AlexNet)은 2012년 ImageNet 대회(ILSVRC 2012)에서 우승하며 딥러닝 기반 이미지 인식의 시대를 연 컨볼루션 신경망(CNN) 모델이다. 토론토 대학교의 알렉스 크리제브스키(Alex Krizhevsky), 일야 서츠케버(Ilya Sutskever), 제프리 힌턴(Geoffrey Hinton)에 의해 개발되었다.
개요[편집 | 원본 편집]
AlexNet은 대규모 이미지 데이터셋(ImageNet)을 학습하여 객체 분류 문제를 해결한 모델로, 당시 기존 머신러닝 기반 방법보다 압도적으로 낮은 오류율을 기록하며 주목받았다. GPU 병렬 연산, ReLU 활성화 함수, 드롭아웃(dropout), 데이터 증강(data augmentation) 등의 현대적 기법을 최초로 결합한 모델로 평가된다.
역사[편집 | 원본 편집]
2012년 ILSVRC 대회에서 AlexNet은 Top-5 오류율 15.3%를 기록하여 2위보다 10% 이상 낮은 성능을 보였다. 이는 딥러닝이 대규모 시각 인식 문제에서 기존 전통적 알고리즘을 뛰어넘을 수 있음을 증명한 사건이었다. AlexNet의 성공 이후 VGG, GoogLeNet, ResNet 등 더 깊고 효율적인 구조의 신경망이 연이어 등장하였으며, 이들은 모두 AlexNet의 영향을 받았다.
아키텍처[편집 | 원본 편집]
AlexNet은 총 8개의 학습 가능한 계층으로 구성되어 있으며, 그중 5층은 컨볼루션 계층, 나머지 3층은 완전연결층이다.
- 입력: 224×224 RGB 이미지
- Conv1: 96개의 11×11 필터, 스트라이드 4
- Max Pooling: 3×3 필터, 스트라이드 2
- Conv2: 256개의 5×5 필터
- Max Pooling
- Conv3–5: 384, 384, 256개의 3×3 필터
- 완전연결층 4096–4096–1000
- 출력: 1000 클래스 (ImageNet 클래스)
ReLU(Rectified Linear Unit) 활성화 함수를 사용하였으며, 드롭아웃을 통해 과적합을 방지하였다. 두 개의 GPU를 병렬로 연결하여 학습을 수행한 점 또한 특징이다.
기술적 특징[편집 | 원본 편집]
- **ReLU 활성화 함수**: 시그모이드보다 빠른 수렴을 유도.
- **드롭아웃(dropout)**: 완전연결층에서 뉴런 일부를 무작위로 비활성화하여 과적합 방지.
- **데이터 증강(data augmentation)**: 이미지 회전, 좌우 반전, 크롭 등으로 데이터 다양성 확보.
- **GPU 병렬 학습**: 두 GPU로 네트워크를 분할하여 연산 속도 향상.
성능[편집 | 원본 편집]
AlexNet은 당시 기준으로 혁신적인 15.3%의 Top-5 오류율을 달성했으며, 이는 기존 전통적 이미지 분류 기법보다 약 10.8%포인트 개선된 수치였다. 이 결과는 딥러닝이 실질적인 성능 향상을 가져올 수 있음을 입증했다.
영향[편집 | 원본 편집]
AlexNet의 등장은 인공지능 연구의 흐름을 근본적으로 바꾸었다.
- 대규모 데이터셋과 GPU 기반 학습의 중요성을 부각시켰다.
- CNN 구조의 표준화(컨볼루션–풀링–완전연결) 방향을 제시하였다.
- 이후 등장한 VGG, GoogLeNet, ResNet 등 모든 현대 CNN의 기초적 틀을 제공했다.
또한 AlexNet은 전이학습(Transfer Learning)의 기초 모델로 현재까지도 교육용 및 실험용으로 널리 활용되고 있다.
장점과 한계[편집 | 원본 편집]
장점[편집 | 원본 편집]
- 대규모 이미지 학습에서 최초로 딥러닝이 기존 기법을 압도하는 성능을 달성하였다.
- GPU 병렬처리 및 ReLU, 드롭아웃 등 핵심 기술을 결합하여 학습 효율을 개선하였다.
한계[편집 | 원본 편집]
- 8층으로 구성된 비교적 얕은 구조이며, 현재의 심층 모델(VGG, ResNet 등)에 비해 표현력이 제한적이다.
- 학습에 높은 연산 자원과 대용량 데이터셋이 필요하다.
- 구조가 이미지 분류에 최적화되어 있어 객체 검출이나 분할 등에는 추가적 수정이 필요하다.
현대적 의의[편집 | 원본 편집]
AlexNet은 딥러닝의 상징적 전환점을 이룬 모델로, 인공지능 연구와 산업 전반에 큰 영향을 끼쳤다. 딥러닝이 실제 대규모 시각 인식 문제를 해결할 수 있다는 사실을 입증했으며, 오늘날에도 CNN의 교육용 표준 모델로 사용되고 있다.
같이 보기[편집 | 원본 편집]
참고 문헌[편집 | 원본 편집]
- Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton, "ImageNet Classification with Deep Convolutional Neural Networks," Advances in Neural Information Processing Systems (NIPS), 2012.
- Karen Simonyan, Andrew Zisserman, "Very Deep Convolutional Networks for Large-Scale Image Recognition," arXiv, 2014.
- Ian Goodfellow, Yoshua Bengio, Aaron Courville, "Deep Learning," MIT Press, 2016.
각주[편집 | 원본 편집]
없음