익명 사용자
로그인하지 않음
토론
기여
계정 만들기
로그인
IT 위키
검색
Mixture of Experts (인공지능)
편집하기 (부분)
IT 위키
이름공간
문서
토론
더 보기
더 보기
문서 행위
읽기
편집
원본 편집
역사
경고:
로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다.
로그인
하거나
계정을 생성하면
편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.
스팸 방지 검사입니다. 이것을 입력하지
마세요
!
== 역사 == Mixture of Experts 개념은 1990년대 초반 제이콥스(R. Jacobs), 조던(M. Jordan), 힌튼(G. Hinton) 등이 제안한 연구에서 처음 체계화되었다. 당시에는 여러 작은 신경망을 결합하여 입력 공간을 분할 학습하는 방식으로 활용되었으나, 연산 자원과 데이터의 한계로 널리 확산되지는 못했다. 2010년대 후반, 구글 브레인의 GShard, Switch Transformer와 같은 연구에서 MoE가 대규모 신경망을 효율적으로 확장하는 방법으로 다시 주목받기 시작했다. 특히 샤지어(Shazeer) 등이 2017년에 발표한 ''Sparsely-Gated Mixture-of-Experts Layer''는 MoE의 현대적 응용을 여는 계기가 되었다. 2020년대 들어서는 초거대 언어 모델(LLM)의 학습과 서비스에서 MoE가 핵심 구조로 자리 잡았다. * 중국의 DeepSeek 시리즈는 MoE 아키텍처를 상업적으로 적극 활용하며, 대규모 모델을 상대적으로 저렴한 비용으로 학습할 수 있음을 보여주어 국제적 주목을 받았다. * OpenAI의 GPT-5 역시 내부적으로 MoE 구조를 사용한 것으로 알려져 있으며, 초기 공개 당시 라우터(router) 문제로 성능 저하가 발생했다는 사실이 샘 알트만의 발언을 통해 언론에 보도되기도 했다.<ref>TechCrunch, "Sam Altman addresses bumpy GPT-5 rollout, bringing 4o back and the chart crime", 2025-08-08</ref><ref>VentureBeat, "OpenAI returns old models to ChatGPT as Sam Altman admits bumpy GPT-5 rollout", 2025-08-08</ref> 이처럼 MoE는 연구적 맥락에서 시작하여, 현재는 대규모 상용 AI 모델에서 계산 효율성과 성능을 동시에 달성하기 위한 주요 방법론으로 자리매김하고 있다.
요약:
IT 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-비영리-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는
IT 위키:저작권
문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요.
또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다.
저작권이 있는 내용을 허가 없이 저장하지 마세요!
취소
편집 도움말
(새 창에서 열림)
둘러보기
둘러보기
대문
최근 바뀜
광고
위키 도구
위키 도구
특수 문서 목록
문서 도구
문서 도구
사용자 문서 도구
더 보기
여기를 가리키는 문서
가리키는 글의 최근 바뀜
문서 정보
문서 기록