LongMem: 두 판 사이의 차이
IT 위키
(새 문서: '''LongMem'''(영어: Long‑Term Memory augmentation)은 장기 문맥을 기억하고 활용할 수 있도록 언어 모델을 확장하는 Meta의 딥러닝 프레임워크이다. ==개요== LongMem은 Language Models Augmented with Long‑Term Memory의 약자이며, 기존 LLM의 입력 길이 제한(고정된 컨텍스트 윈도우)을 극복하기 위해 개발된 메모리 향상 구조이다. Meta AI 연구진(Weizhi Wang 등)은 2023년 arXiv에 본 프레임워크를...) |
편집 요약 없음 |
||
1번째 줄: | 1번째 줄: | ||
'''LongMem'''(영어: Long‑Term Memory augmentation)은 장기 문맥을 기억하고 활용할 수 있도록 언어 모델을 확장하는 | '''LongMem'''(영어: Long‑Term Memory augmentation)은 장기 문맥을 기억하고 활용할 수 있도록 언어 모델을 확장하는 Microsoft Research와 UC Santa Barbara의 딥러닝 프레임워크이다. | ||
==개요== | ==개요== | ||
LongMem은 Language Models Augmented with Long‑Term Memory의 약자이며, 기존 LLM의 입력 길이 제한(고정된 컨텍스트 윈도우)을 극복하기 위해 개발된 메모리 향상 구조이다. | LongMem은 Language Models Augmented with Long‑Term Memory의 약자이며, 기존 LLM의 입력 길이 제한(고정된 컨텍스트 윈도우)을 극복하기 위해 개발된 메모리 향상 구조이다. Microsoft Research 및 UC Santa Barbara 소속 연구진(Weizhi Wang 등)은 2023년 arXiv에 본 프레임워크를 기술하고, 이를 뒷받침하는 오픈소스 구현을 GitHub에 공개했다<ref>Wang, Weizhi et al. "Augmenting Language Models with Long‑Term Memory." arXiv, 2023. https://arxiv.org/abs/2306.07174</ref><ref>https://github.com/Victorwz/LongMem</ref>. | ||
==구조 및 작동 원리== | == 구조 및 작동 원리== | ||
LongMem은 다음과 같은 핵심 설계 요소를 갖춘다: | LongMem은 다음과 같은 핵심 설계 요소를 갖춘다: | ||
===디커플링 네트워크 구조=== | ===디커플링 네트워크 구조=== | ||
*기존 백본 LLM(예: GPT‑2 기반)은 고정된 입력 길이로 작동 | *기존 백본 LLM(예: GPT‑2 기반)은 고정된 입력 길이로 작동 | ||
*메모리 인코더 역할을 위한 별도 네트워크(unchanged frozen backbone) | * 메모리 인코더 역할을 위한 별도 네트워크(unchanged frozen backbone) | ||
*Adaptive residual side‑network가 메모리 리트리버 및 리더로 작동<ref>https://convai.com/blog/long-term-memory---a-technical-overview</ref> | *Adaptive residual side‑network가 메모리 리트리버 및 리더로 작동<ref>https://convai.com/blog/long-term-memory---a-technical-overview</ref> | ||
이 구조 덕분에 장기 과거 컨텍스트를 디스크 혹은 메모리 뱅크 형태로 무제한 저장하고, 필요시 회수(retrieve)하며 staleness 없이 처리할 수 있다. | 이 구조 덕분에 장기 과거 컨텍스트를 디스크 혹은 메모리 뱅크 형태로 무제한 저장하고, 필요시 회수(retrieve)하며 staleness 없이 처리할 수 있다. | ||
===메모리 증강 어댑테이션 학습=== | ===메모리 증강 어댑테이션 학습 === | ||
이 프레임워크는 메모리 증강 적응 학습(training with memory-augmented adaptation)을 수행하여, 모델이 장기 과거 정보를 효과적으로 암기하고 활용하도록 한다<ref>Wang, Weizhi et al., 같은 논문 참조</ref>. | 이 프레임워크는 메모리 증강 적응 학습(training with memory-augmented adaptation)을 수행하여, 모델이 장기 과거 정보를 효과적으로 암기하고 활용하도록 한다<ref>Wang, Weizhi et al., 같은 논문 참조</ref>. | ||
==특징 및 성능== | ==특징 및 성능== | ||
*메모리 저장은 이론상 무제한이며, 구현 예시로 65,000 token 크기의 장기 메모리 캐시가 가능 | *메모리 저장은 이론상 무제한이며, 구현 예시로 65,000 token 크기의 장기 메모리 캐시가 가능 | ||
*“ChapterBreak” 장기 컨텍스트 벤치마크에서 기존 장기 컨텍스트 강자(model)들을 넘어서는 성능을 기록 | *“ChapterBreak” 장기 컨텍스트 벤치마크에서 기존 장기 컨텍스트 강자(model)들을 넘어서는 성능을 기록 | ||
*SST‑2, MPQA, SQuAD 등 다양한 NLU 태스크의 many‑shot(in-context) 학습에서 GPT‑2 기반 전통 모델보다 평균 +8% 이상 성능 향상, SQuAD 정확도 +4.5 EM 점수 증가 | *SST‑2, MPQA, SQuAD 등 다양한 NLU 태스크의 many‑shot(in-context) 학습에서 GPT‑2 기반 전통 모델보다 평균 +8% 이상 성능 향상, SQuAD 정확도 +4.5 EM 점수 증가<ref>같은 논문 참조</ref> | ||
==장점과 한계== | ==장점과 한계== | ||
*'''장점''': 장기 기억 능력으로 문맥 유지와 복잡한 추론 강화 가능. 메모리 용량 확장성 우수 | *'''장점''': 장기 기억 능력으로 문맥 유지와 복잡한 추론 강화 가능. 메모리 용량 확장성 우수 | ||
*'''한계''': 추가 메모리 네트워크 설계 복잡성과 메모리 크기 및 청크 크기의 하이퍼파라미터 튜닝 필요 | *'''한계''': 추가 메모리 네트워크 설계 복잡성과 메모리 크기 및 청크 크기의 하이퍼파라미터 튜닝 필요 | ||
==오픈소스 및 활용== | == 오픈소스 및 활용== | ||
LongMem의 공식 구현은 GitHub에서 MIT 라이선스로 제공되며, 누구나 재현 및 응용 가능하다<ref>https://github.com/Victorwz/LongMem</ref>. | |||
==같이 보기== | ==같이 보기== | ||
* | *[[LLaMA]] | ||
*[[Retrieval‑Augmented Generation]] | |||
*[[In‑Context Learning]] | |||
*[[Transformers]] | |||
*[[EWE (Explicit Working Memory)]] | |||
==각주== | ==각주== | ||
<references /> | <references /> |
2025년 7월 4일 (금) 02:31 기준 최신판
LongMem(영어: Long‑Term Memory augmentation)은 장기 문맥을 기억하고 활용할 수 있도록 언어 모델을 확장하는 Microsoft Research와 UC Santa Barbara의 딥러닝 프레임워크이다.
개요[편집 | 원본 편집]
LongMem은 Language Models Augmented with Long‑Term Memory의 약자이며, 기존 LLM의 입력 길이 제한(고정된 컨텍스트 윈도우)을 극복하기 위해 개발된 메모리 향상 구조이다. Microsoft Research 및 UC Santa Barbara 소속 연구진(Weizhi Wang 등)은 2023년 arXiv에 본 프레임워크를 기술하고, 이를 뒷받침하는 오픈소스 구현을 GitHub에 공개했다[1][2].
구조 및 작동 원리[편집 | 원본 편집]
LongMem은 다음과 같은 핵심 설계 요소를 갖춘다:
디커플링 네트워크 구조[편집 | 원본 편집]
- 기존 백본 LLM(예: GPT‑2 기반)은 고정된 입력 길이로 작동
- 메모리 인코더 역할을 위한 별도 네트워크(unchanged frozen backbone)
- Adaptive residual side‑network가 메모리 리트리버 및 리더로 작동[3]
이 구조 덕분에 장기 과거 컨텍스트를 디스크 혹은 메모리 뱅크 형태로 무제한 저장하고, 필요시 회수(retrieve)하며 staleness 없이 처리할 수 있다.
메모리 증강 어댑테이션 학습[편집 | 원본 편집]
이 프레임워크는 메모리 증강 적응 학습(training with memory-augmented adaptation)을 수행하여, 모델이 장기 과거 정보를 효과적으로 암기하고 활용하도록 한다[4].
특징 및 성능[편집 | 원본 편집]
- 메모리 저장은 이론상 무제한이며, 구현 예시로 65,000 token 크기의 장기 메모리 캐시가 가능
- “ChapterBreak” 장기 컨텍스트 벤치마크에서 기존 장기 컨텍스트 강자(model)들을 넘어서는 성능을 기록
- SST‑2, MPQA, SQuAD 등 다양한 NLU 태스크의 many‑shot(in-context) 학습에서 GPT‑2 기반 전통 모델보다 평균 +8% 이상 성능 향상, SQuAD 정확도 +4.5 EM 점수 증가[5]
장점과 한계[편집 | 원본 편집]
- 장점: 장기 기억 능력으로 문맥 유지와 복잡한 추론 강화 가능. 메모리 용량 확장성 우수
- 한계: 추가 메모리 네트워크 설계 복잡성과 메모리 크기 및 청크 크기의 하이퍼파라미터 튜닝 필요
오픈소스 및 활용[편집 | 원본 편집]
LongMem의 공식 구현은 GitHub에서 MIT 라이선스로 제공되며, 누구나 재현 및 응용 가능하다[6].
같이 보기[편집 | 원본 편집]
각주[편집 | 원본 편집]
- ↑ Wang, Weizhi et al. "Augmenting Language Models with Long‑Term Memory." arXiv, 2023. https://arxiv.org/abs/2306.07174
- ↑ https://github.com/Victorwz/LongMem
- ↑ https://convai.com/blog/long-term-memory---a-technical-overview
- ↑ Wang, Weizhi et al., 같은 논문 참조
- ↑ 같은 논문 참조
- ↑ https://github.com/Victorwz/LongMem