익명 사용자
로그인하지 않음
토론
기여
계정 만들기
로그인
IT 위키
검색
Gato (인공지능)
편집하기
IT 위키
이름공간
문서
토론
더 보기
더 보기
문서 행위
읽기
편집
원본 편집
역사
경고:
로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다.
로그인
하거나
계정을 생성하면
편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.
스팸 방지 검사입니다. 이것을 입력하지
마세요
!
Gato(영어: Gato)은 DeepMind에서 개발한 멀티모달 범용 에이전트이다. ==개요== Gato는 텍스트, 이미지, 로봇 팔 제어 등의 다양한 입력과 출력을 단일 트랜스포머 신경망으로 처리할 수 있는 멀티모달(multimodal), 다중 작업(multi‑task), 다중 구현(multi‑embodiment) 일반용 에이전트이다. 동일한 네트워크와 가중치로 이미지 캡션 생성, 챗봇 대화, Atari 게임 플레이, 실제 로봇 블록 쌓기 등 600여 개 이상의 서로 다른 작업을 수행할 수 있다. ==개발 배경 및 출처== Gato는 2022년 5월 12일 DeepMind에서 발표된 모델로, 범용 인공지능(AGI)을 향한 연구의 단계로 간주되었다. 모델은 약 12억 개의 파라미터(parameter)를 가지며, GPT‑3(약 1750억 파라미터)에 비해 상대적으로 작지만 다양한 작업을 실시간으로 수행할 수 있도록 설계되었다. ==구조 및 학습 방법== Gato는 트랜스포머 기반 구조로, 텍스트, 이미지 패치, 로봇 관절 토크, 버튼 프레스 등 다양한 데이터를 모두 토큰 시퀀스로 직렬화하여 입력한다. 손실(loss)은 출력 대상에 대해만 계산되며, 예측하지 않는 입력에는 마스킹 처리된다. 컨텍스트 윈도우는 최대 1024 토큰으로, 이전 관찰과 행동 기록을 전체적으로 참조해 토큰 단위로 행동 또는 텍스트를 생성한다. ==성능 및 응용 사례== Gato는 총 604개의 작업(task)을 학습하였으며, 그중 약 450개 작업에서는 인간 전문가 수준의 성능의 절반 이상을 달성하였다. 일부 작업에서는 전문가 수준과 동일하거나 가까운 성능을 보이기도 했다. 특히 Atari 게임, 이미지 캡셔닝, 자연어 대화, 실시간 로봇 제어 등 다양한 분야를 단일 모델로 처리할 수 있는 점이 주요 특징이다. ==의의 및 한계== *Gato는 같은 가중치 집합으로 다양한 작업을 동시에 수행할 수 있어, 모델 및 시스템 개발의 복잡도를 크게 줄인다. *그러나 12억 파라미터 규모는 보다 복잡하고 광범위한 AGI를 실현하기에는 제한적이라는 평가도 있다. 일부 전문가들은 “기대에 비해 성능이 미약하다”고 지적하기도 한다. *또한 컨텍스트 길이 제한(1024 토큰) 및 오프라인 지도 학습(supervised)의 한계로 인해 실시간 적응성과 일반화 능력에는 제약이 존재한다. ==같이 보기== *[[트랜스포머 (인공지능)]] *[[범용 인공지능]] *[[DeepMind]] *[[멀티모달 AI]] *[[AlphaGo]] ==참고 문헌== *Reed, Scott et al., "A Generalist Agent", Transactions on Machine Learning Research, November 2022. *DeepMind, "A Generalist Agent", DeepMind 블로그, May 12, 2022. ==각주== [[분류:인공지능]]
요약:
IT 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-비영리-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는
IT 위키:저작권
문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요.
또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다.
저작권이 있는 내용을 허가 없이 저장하지 마세요!
취소
편집 도움말
(새 창에서 열림)
둘러보기
둘러보기
대문
최근 바뀜
광고
위키 도구
위키 도구
특수 문서 목록
문서 도구
문서 도구
사용자 문서 도구
더 보기
여기를 가리키는 문서
가리키는 글의 최근 바뀜
문서 정보
문서 기록