LongMem

LongMem(영어: Long‑Term Memory augmentation)은 장기 문맥을 기억하고 활용할 수 있도록 언어 모델을 확장하는 Microsoft Research와 UC Santa Barbara의 딥러닝 프레임워크이다.

개요[편집 | 원본 편집]

LongMem은 Language Models Augmented with Long‑Term Memory의 약자이며, 기존 LLM의 입력 길이 제한(고정된 컨텍스트 윈도우)을 극복하기 위해 개발된 메모리 향상 구조이다. Microsoft Research 및 UC Santa Barbara 소속 연구진(Weizhi Wang 등)은 2023년 arXiv에 본 프레임워크를 기술하고, 이를 뒷받침하는 오픈소스 구현을 GitHub에 공개했다^[1]^[2].

구조 및 작동 원리[편집 | 원본 편집]

LongMem은 다음과 같은 핵심 설계 요소를 갖춘다:

디커플링 네트워크 구조[편집 | 원본 편집]

기존 백본 LLM(예: GPT‑2 기반)은 고정된 입력 길이로 작동
메모리 인코더 역할을 위한 별도 네트워크(unchanged frozen backbone)
Adaptive residual side‑network가 메모리 리트리버 및 리더로 작동^[3]

이 구조 덕분에 장기 과거 컨텍스트를 디스크 혹은 메모리 뱅크 형태로 무제한 저장하고, 필요시 회수(retrieve)하며 staleness 없이 처리할 수 있다.

메모리 증강 어댑테이션 학습[편집 | 원본 편집]

이 프레임워크는 메모리 증강 적응 학습(training with memory-augmented adaptation)을 수행하여, 모델이 장기 과거 정보를 효과적으로 암기하고 활용하도록 한다^[4].

특징 및 성능[편집 | 원본 편집]

메모리 저장은 이론상 무제한이며, 구현 예시로 65,000 token 크기의 장기 메모리 캐시가 가능
“ChapterBreak” 장기 컨텍스트 벤치마크에서 기존 장기 컨텍스트 강자(model)들을 넘어서는 성능을 기록
SST‑2, MPQA, SQuAD 등 다양한 NLU 태스크의 many‑shot(in-context) 학습에서 GPT‑2 기반 전통 모델보다 평균 +8% 이상 성능 향상, SQuAD 정확도 +4.5 EM 점수 증가^[5]

장점과 한계[편집 | 원본 편집]

장점: 장기 기억 능력으로 문맥 유지와 복잡한 추론 강화 가능. 메모리 용량 확장성 우수
한계: 추가 메모리 네트워크 설계 복잡성과 메모리 크기 및 청크 크기의 하이퍼파라미터 튜닝 필요

오픈소스 및 활용[편집 | 원본 편집]

LongMem의 공식 구현은 GitHub에서 MIT 라이선스로 제공되며, 누구나 재현 및 응용 가능하다^[6].

같이 보기[편집 | 원본 편집]

각주[편집 | 원본 편집]

↑ Wang, Weizhi et al. "Augmenting Language Models with Long‑Term Memory." arXiv, 2023. https://arxiv.org/abs/2306.07174
↑ https://github.com/Victorwz/LongMem
↑ https://convai.com/blog/long-term-memory---a-technical-overview
↑ Wang, Weizhi et al., 같은 논문 참조
↑ 같은 논문 참조
↑ https://github.com/Victorwz/LongMem

[1] Wang, Weizhi et al. "Augmenting Language Models with Long‑Term Memory." arXiv, 2023. https://arxiv.org/abs/2306.07174

[2] ttps://github.com/Victorwz/LongMem

[3] ttps://convai.com/blog/long-term-memory---a-technical-overview

[4] Wang, Weizhi et al., 같은 논문 참조

[5] 같은 논문 참조

[6] ttps://github.com/Victorwz/LongMem

[1]

[2]

[3]

[4]

[5]

[6]

익명 사용자

검색

LongMem

이름공간

더 보기

문서 행위

목차

개요[편집 | 원본 편집]

구조 및 작동 원리[편집 | 원본 편집]

디커플링 네트워크 구조[편집 | 원본 편집]

메모리 증강 어댑테이션 학습[편집 | 원본 편집]

특징 및 성능[편집 | 원본 편집]

장점과 한계[편집 | 원본 편집]

오픈소스 및 활용[편집 | 원본 편집]

같이 보기[편집 | 원본 편집]

각주[편집 | 원본 편집]

둘러보기

둘러보기

광고

위키 도구

위키 도구

익명 사용자

검색

LongMem

개요[편집 | 원본 편집]

구조 및 작동 원리[편집 | 원본 편집]

디커플링 네트워크 구조[편집 | 원본 편집]

메모리 증강 어댑테이션 학습[편집 | 원본 편집]

특징 및 성능[편집 | 원본 편집]

장점과 한계[편집 | 원본 편집]

오픈소스 및 활용[편집 | 원본 편집]

같이 보기[편집 | 원본 편집]

각주[편집 | 원본 편집]

둘러보기

위키 도구

문서 도구