LongMem
IT 위키
LongMem(영어: Long‑Term Memory augmentation)은 장기 문맥을 기억하고 활용할 수 있도록 언어 모델을 확장하는 Microsoft Research와 UC Santa Barbara의 딥러닝 프레임워크이다.
개요[편집 | 원본 편집]
LongMem은 Language Models Augmented with Long‑Term Memory의 약자이며, 기존 LLM의 입력 길이 제한(고정된 컨텍스트 윈도우)을 극복하기 위해 개발된 메모리 향상 구조이다. Microsoft Research 및 UC Santa Barbara 소속 연구진(Weizhi Wang 등)은 2023년 arXiv에 본 프레임워크를 기술하고, 이를 뒷받침하는 오픈소스 구현을 GitHub에 공개했다[1][2].
구조 및 작동 원리[편집 | 원본 편집]
LongMem은 다음과 같은 핵심 설계 요소를 갖춘다:
디커플링 네트워크 구조[편집 | 원본 편집]
- 기존 백본 LLM(예: GPT‑2 기반)은 고정된 입력 길이로 작동
- 메모리 인코더 역할을 위한 별도 네트워크(unchanged frozen backbone)
- Adaptive residual side‑network가 메모리 리트리버 및 리더로 작동[3]
이 구조 덕분에 장기 과거 컨텍스트를 디스크 혹은 메모리 뱅크 형태로 무제한 저장하고, 필요시 회수(retrieve)하며 staleness 없이 처리할 수 있다.
메모리 증강 어댑테이션 학습[편집 | 원본 편집]
이 프레임워크는 메모리 증강 적응 학습(training with memory-augmented adaptation)을 수행하여, 모델이 장기 과거 정보를 효과적으로 암기하고 활용하도록 한다[4].
특징 및 성능[편집 | 원본 편집]
- 메모리 저장은 이론상 무제한이며, 구현 예시로 65,000 token 크기의 장기 메모리 캐시가 가능
- “ChapterBreak” 장기 컨텍스트 벤치마크에서 기존 장기 컨텍스트 강자(model)들을 넘어서는 성능을 기록
- SST‑2, MPQA, SQuAD 등 다양한 NLU 태스크의 many‑shot(in-context) 학습에서 GPT‑2 기반 전통 모델보다 평균 +8% 이상 성능 향상, SQuAD 정확도 +4.5 EM 점수 증가[5]
장점과 한계[편집 | 원본 편집]
- 장점: 장기 기억 능력으로 문맥 유지와 복잡한 추론 강화 가능. 메모리 용량 확장성 우수
- 한계: 추가 메모리 네트워크 설계 복잡성과 메모리 크기 및 청크 크기의 하이퍼파라미터 튜닝 필요
오픈소스 및 활용[편집 | 원본 편집]
LongMem의 공식 구현은 GitHub에서 MIT 라이선스로 제공되며, 누구나 재현 및 응용 가능하다[6].
같이 보기[편집 | 원본 편집]
각주[편집 | 원본 편집]
- ↑ Wang, Weizhi et al. "Augmenting Language Models with Long‑Term Memory." arXiv, 2023. https://arxiv.org/abs/2306.07174
- ↑ https://github.com/Victorwz/LongMem
- ↑ https://convai.com/blog/long-term-memory---a-technical-overview
- ↑ Wang, Weizhi et al., 같은 논문 참조
- ↑ 같은 논문 참조
- ↑ https://github.com/Victorwz/LongMem