Gato (인공지능): 두 판 사이의 차이
(새 문서: Gato(영어: Gato)은 DeepMind에서 개발한 멀티모달 범용 에이전트이다. ==개요== Gato는 텍스트, 이미지, 로봇 팔 제어 등의 다양한 입력과 출력을 단일 트랜스포머 신경망으로 처리할 수 있는 멀티모달(multimodal), 다중 작업(multi‑task), 다중 구현(multi‑embodiment) 일반용 에이전트이다. 동일한 네트워크와 가중치로 이미지 캡션 생성, 챗봇 대화, Atari 게임 플레이, 실제 로봇 블...) |
(차이 없음)
|
2025년 7월 30일 (수) 07:14 기준 최신판
Gato(영어: Gato)은 DeepMind에서 개발한 멀티모달 범용 에이전트이다.
개요[편집 | 원본 편집]
Gato는 텍스트, 이미지, 로봇 팔 제어 등의 다양한 입력과 출력을 단일 트랜스포머 신경망으로 처리할 수 있는 멀티모달(multimodal), 다중 작업(multi‑task), 다중 구현(multi‑embodiment) 일반용 에이전트이다. 동일한 네트워크와 가중치로 이미지 캡션 생성, 챗봇 대화, Atari 게임 플레이, 실제 로봇 블록 쌓기 등 600여 개 이상의 서로 다른 작업을 수행할 수 있다.
개발 배경 및 출처[편집 | 원본 편집]
Gato는 2022년 5월 12일 DeepMind에서 발표된 모델로, 범용 인공지능(AGI)을 향한 연구의 단계로 간주되었다. 모델은 약 12억 개의 파라미터(parameter)를 가지며, GPT‑3(약 1750억 파라미터)에 비해 상대적으로 작지만 다양한 작업을 실시간으로 수행할 수 있도록 설계되었다.
구조 및 학습 방법[편집 | 원본 편집]
Gato는 트랜스포머 기반 구조로, 텍스트, 이미지 패치, 로봇 관절 토크, 버튼 프레스 등 다양한 데이터를 모두 토큰 시퀀스로 직렬화하여 입력한다. 손실(loss)은 출력 대상에 대해만 계산되며, 예측하지 않는 입력에는 마스킹 처리된다. 컨텍스트 윈도우는 최대 1024 토큰으로, 이전 관찰과 행동 기록을 전체적으로 참조해 토큰 단위로 행동 또는 텍스트를 생성한다.
성능 및 응용 사례[편집 | 원본 편집]
Gato는 총 604개의 작업(task)을 학습하였으며, 그중 약 450개 작업에서는 인간 전문가 수준의 성능의 절반 이상을 달성하였다. 일부 작업에서는 전문가 수준과 동일하거나 가까운 성능을 보이기도 했다. 특히 Atari 게임, 이미지 캡셔닝, 자연어 대화, 실시간 로봇 제어 등 다양한 분야를 단일 모델로 처리할 수 있는 점이 주요 특징이다.
의의 및 한계[편집 | 원본 편집]
- Gato는 같은 가중치 집합으로 다양한 작업을 동시에 수행할 수 있어, 모델 및 시스템 개발의 복잡도를 크게 줄인다.
- 그러나 12억 파라미터 규모는 보다 복잡하고 광범위한 AGI를 실현하기에는 제한적이라는 평가도 있다. 일부 전문가들은 “기대에 비해 성능이 미약하다”고 지적하기도 한다.
- 또한 컨텍스트 길이 제한(1024 토큰) 및 오프라인 지도 학습(supervised)의 한계로 인해 실시간 적응성과 일반화 능력에는 제약이 존재한다.
같이 보기[편집 | 원본 편집]
참고 문헌[편집 | 원본 편집]
- Reed, Scott et al., "A Generalist Agent", Transactions on Machine Learning Research, November 2022.
- DeepMind, "A Generalist Agent", DeepMind 블로그, May 12, 2022.