익명 사용자
로그인하지 않음
토론
기여
계정 만들기
로그인
IT 위키
검색
MuZero (인공지능)
편집하기
IT 위키
이름공간
문서
토론
더 보기
더 보기
문서 행위
읽기
편집
원본 편집
역사
경고:
로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다.
로그인
하거나
계정을 생성하면
편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.
스팸 방지 검사입니다. 이것을 입력하지
마세요
!
MuZero(인공지능)은 DeepMind에서 개발한 강화학습 기반의 모델 기반 계획 알고리즘이다. ==개요== MuZero는 AlphaZero의 후속 알고리즘으로, 게임의 규칙(환경의 동역학)을 사전에 알지 못해도 학습을 통해 규칙을 모델링하고 이를 기반으로 트리 탐색을 통해 계획을 세워 초인적 성능을 달성하는 능력을 지닌다.<ref>https://medium.com/geekculture/muzero-explained-a04cb1bad4d4</ref> ==개발 배경 및 주요 특징== MuZero는 기존 AlphaGo, AlphaGo Zero, AlphaZero에서 사용되던 환경의 완전한 시뮬레이터나 규칙 기반 지식 없이도 작동한다. 기본적으로 다음 세 가지 핵심 요소를 학습한다<ref>https://www.independent.co.uk/tech/google-deepmind-ai-muzero-b1778275.html</ref><ref>https://medium.com/towards-data-science/the-evolution-of-alphago-to-muzero-c2c37306bf9</ref>: *정책(policy) 예측 *가치(value) 예측 *보상(reward) 예측 이 모델 기반 예측을 활용하여 Monte-Carlo 트리 탐색(MCTS)을 수행한다. ==성능 및 평가== MuZero는 다음과 같은 영역에서 뛰어난 성능을 보였다: *'''체스, 장기, 바둑''': 사전 규칙 없이도 AlphaZero와 같은 수준의 초인적 성능 도달<ref>https://arxiv.org/abs/1911.08265</ref> *'''57종의 아타리 Atari 게임''': 복잡한 시각 환경에서도 새로운 최첨단 성능 기록<ref>https://towardsai.net/p/machine-learning/muzero-master-board-and-atari-games-with-the-successor-of-alphazero</ref> *Reddit 사용자들의 언급에 따르면: “MuZero slightly exceeded the performance of AlphaZero despite using less overall computation”<ref>https://www.reddit.com/r/singularity/comments/dzjh4v/deepminds_muzero_the_successor_of_alphazero/</ref> ==기술적 설명== MuZero는 내부적으로 다음 세 가지 신경망 모듈로 구성된다<ref>https://medium.com/data-science/muzero-101-a-brief-introduction-to-deepminds-latest-ai-a2f1b3aa5275</ref>: *표현(representation) 네트워크: 관측 데이터를 잠재 상태(latent state)로 변환 *역학(dynamics) 네트워크: 다음 상태와 보상을 예측 *예측(prediction) 네트워크: 행동 정책과 가치 함수를 예측 이 구조를 기반으로 MCTS를 수행하며, 환경의 동역학을 학습해 계획을 세운다. ==현실 세계 응용== DeepMind는 MuZero의 기술을 이미 영상 압축, 데이터센터 최적화, 칩 설계 등 실제 시스템에 적용 중이다<ref>https://xlnwel.github.io/blog/reinforcement%20learning/MuZero/</ref><ref>https://deepmind.google/discover/blog/muzeros-first-step-from-research-into-the-real-world/</ref><ref>https://deepmind.google/discover/blog/muzero-alphazero-and-alphadev-optimizing-computer-systems/</ref>. ==향후 발전 방향== *높은 샘플 효율성을 갖춘 '''EfficientZero''' 알고리즘은 MuZero 기반으로 Atari에서 제한된 데이터만으로도 인간 이상의 퍼포먼스를 보여주었음<ref>https://siliconangle.com/2020/12/23/deepminds-new-muzero-ai-develops-superhuman-chess-skills-making-plans/</ref> *'''Sampled MuZero'''는 연속적이고 고차원적인 행동 공간에서 실행 가능하도록 확장된 변형으로 실세계 제어 도메인에도 적용 가능<ref>https://arxiv.org/abs/2104.06303</ref> ==의의 및 평가== MuZero는 환경의 규칙이 명시적이지 않아도 학습을 통해 환경을 모델링하고 전략적 계획을 수행할 수 있다는 점에서 기존 강화학습 및 계획 알고리즘 구조에 있어 혁신적인 진전으로 평가된다<ref>https://techcrunch.com/2020/12/23/no-rules-no-problem-deepminds-muzero-masters-games-while-learning-how-to-play-them/</ref><ref>https://deepmind.google/discover/blog/muzero-mastering-go-chess-shogi-and-atari-without-rules/</ref>. ==같이 보기== *[[AlphaZero]] *[[강화학습]] *[[DeepMind]] *[[자기지도학습]] *[[Monte_Carlo_트리_탐색]] ==참고 문헌== *Julián Schrittwieser 외, “Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model”, *Nature*, 2019 *David Silver 외, Wired, “What AlphaGo Can Teach Us About How People Learn” 인터뷰 *DeepMind 블로그, “MuZero’s first step from research into the real world” ==각주== <references /> [[분류:인공지능]]
요약:
IT 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-비영리-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는
IT 위키:저작권
문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요.
또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다.
저작권이 있는 내용을 허가 없이 저장하지 마세요!
취소
편집 도움말
(새 창에서 열림)
둘러보기
둘러보기
대문
최근 바뀜
광고
위키 도구
위키 도구
특수 문서 목록
문서 도구
문서 도구
사용자 문서 도구
더 보기
여기를 가리키는 문서
가리키는 글의 최근 바뀜
문서 정보
문서 기록