LongMem: 두 판 사이의 차이

2025년 7월 4일 (금) 02:31 기준 최신판

LongMem(영어: Long‑Term Memory augmentation)은 장기 문맥을 기억하고 활용할 수 있도록 언어 모델을 확장하는 Microsoft Research와 UC Santa Barbara의 딥러닝 프레임워크이다.

개요[편집 | 원본 편집]

LongMem은 Language Models Augmented with Long‑Term Memory의 약자이며, 기존 LLM의 입력 길이 제한(고정된 컨텍스트 윈도우)을 극복하기 위해 개발된 메모리 향상 구조이다. Microsoft Research 및 UC Santa Barbara 소속 연구진(Weizhi Wang 등)은 2023년 arXiv에 본 프레임워크를 기술하고, 이를 뒷받침하는 오픈소스 구현을 GitHub에 공개했다^[1]^[2].

구조 및 작동 원리[편집 | 원본 편집]

LongMem은 다음과 같은 핵심 설계 요소를 갖춘다:

디커플링 네트워크 구조[편집 | 원본 편집]

기존 백본 LLM(예: GPT‑2 기반)은 고정된 입력 길이로 작동
메모리 인코더 역할을 위한 별도 네트워크(unchanged frozen backbone)
Adaptive residual side‑network가 메모리 리트리버 및 리더로 작동^[3]

이 구조 덕분에 장기 과거 컨텍스트를 디스크 혹은 메모리 뱅크 형태로 무제한 저장하고, 필요시 회수(retrieve)하며 staleness 없이 처리할 수 있다.

메모리 증강 어댑테이션 학습[편집 | 원본 편집]

이 프레임워크는 메모리 증강 적응 학습(training with memory-augmented adaptation)을 수행하여, 모델이 장기 과거 정보를 효과적으로 암기하고 활용하도록 한다^[4].

특징 및 성능[편집 | 원본 편집]

메모리 저장은 이론상 무제한이며, 구현 예시로 65,000 token 크기의 장기 메모리 캐시가 가능
“ChapterBreak” 장기 컨텍스트 벤치마크에서 기존 장기 컨텍스트 강자(model)들을 넘어서는 성능을 기록
SST‑2, MPQA, SQuAD 등 다양한 NLU 태스크의 many‑shot(in-context) 학습에서 GPT‑2 기반 전통 모델보다 평균 +8% 이상 성능 향상, SQuAD 정확도 +4.5 EM 점수 증가^[5]

장점과 한계[편집 | 원본 편집]

장점: 장기 기억 능력으로 문맥 유지와 복잡한 추론 강화 가능. 메모리 용량 확장성 우수
한계: 추가 메모리 네트워크 설계 복잡성과 메모리 크기 및 청크 크기의 하이퍼파라미터 튜닝 필요

오픈소스 및 활용[편집 | 원본 편집]

LongMem의 공식 구현은 GitHub에서 MIT 라이선스로 제공되며, 누구나 재현 및 응용 가능하다^[6].

같이 보기[편집 | 원본 편집]

각주[편집 | 원본 편집]

↑ Wang, Weizhi et al. "Augmenting Language Models with Long‑Term Memory." arXiv, 2023. https://arxiv.org/abs/2306.07174
↑ https://github.com/Victorwz/LongMem
↑ https://convai.com/blog/long-term-memory---a-technical-overview
↑ Wang, Weizhi et al., 같은 논문 참조
↑ 같은 논문 참조
↑ https://github.com/Victorwz/LongMem

[1] Wang, Weizhi et al. "Augmenting Language Models with Long‑Term Memory." arXiv, 2023. https://arxiv.org/abs/2306.07174

[2] ttps://github.com/Victorwz/LongMem

[3] ttps://convai.com/blog/long-term-memory---a-technical-overview

[4] Wang, Weizhi et al., 같은 논문 참조

[5] 같은 논문 참조

[6] ttps://github.com/Victorwz/LongMem

[1]

[2]

[3]

[4]

[5]

[6]

@@ 1번째 줄: / 1번째 줄: @@
-'''LongMem'''(영어: Long‑Term Memory augmentation)은 장기 문맥을 기억하고 활용할 수 있도록 언어 모델을 확장하는 Meta의 딥러닝 프레임워크이다.
+'''LongMem'''(영어: Long‑Term Memory augmentation)은 장기 문맥을 기억하고 활용할 수 있도록 언어 모델을 확장하는 Microsoft Research와 UC Santa Barbara의 딥러닝 프레임워크이다.
 ==개요==
-LongMem은 Language Models Augmented with Long‑Term Memory의 약자이며, 기존 LLM의 입력 길이 제한(고정된 컨텍스트 윈도우)을 극복하기 위해 개발된 메모리 향상 구조이다. Meta AI 연구진(Weizhi Wang 등)은 2023년 arXiv에 본 프레임워크를 기술하고, 이를 뒷받침하는 오픈소스 구현을 공개했다<ref>Wang, Weizhi et al. "Augmenting Language Models with Long‑Term Memory." arXiv, 2023. https://arxiv.org/abs/2306.07174</ref>.
+LongMem은 Language Models Augmented with Long‑Term Memory의 약자이며, 기존 LLM의 입력 길이 제한(고정된 컨텍스트 윈도우)을 극복하기 위해 개발된 메모리 향상 구조이다. Microsoft Research 및 UC Santa Barbara 소속 연구진(Weizhi Wang 등)은 2023년 arXiv에 본 프레임워크를 기술하고, 이를 뒷받침하는 오픈소스 구현을 GitHub에 공개했다<ref>Wang, Weizhi et al. "Augmenting Language Models with Long‑Term Memory." arXiv, 2023. https://arxiv.org/abs/2306.07174</ref><ref>https://github.com/Victorwz/LongMem</ref>.
-==구조 및 작동 원리==
+== 구조 및 작동 원리==
 LongMem은 다음과 같은 핵심 설계 요소를 갖춘다:
 ===디커플링 네트워크 구조===
 *기존 백본 LLM(예: GPT‑2 기반)은 고정된 입력 길이로 작동
-*메모리 인코더 역할을 위한 별도 네트워크(unchanged frozen backbone)
+* 메모리 인코더 역할을 위한 별도 네트워크(unchanged frozen backbone)
 *Adaptive residual side‑network가 메모리 리트리버 및 리더로 작동<ref>https://convai.com/blog/long-term-memory---a-technical-overview</ref>
 이 구조 덕분에 장기 과거 컨텍스트를 디스크 혹은 메모리 뱅크 형태로 무제한 저장하고, 필요시 회수(retrieve)하며 staleness 없이 처리할 수 있다.
-===메모리 증강 어댑테이션 학습===
+===메모리 증강 어댑테이션 학습 ===
 이 프레임워크는 메모리 증강 적응 학습(training with memory-augmented adaptation)을 수행하여, 모델이 장기 과거 정보를 효과적으로 암기하고 활용하도록 한다<ref>Wang, Weizhi et al., 같은 논문 참조</ref>.
 ==특징 및 성능==
 *메모리 저장은 이론상 무제한이며, 구현 예시로 65,000 token 크기의 장기 메모리 캐시가 가능
 *“ChapterBreak” 장기 컨텍스트 벤치마크에서 기존 장기 컨텍스트 강자(model)들을 넘어서는 성능을 기록
-*SST‑2, MPQA, SQuAD 등 다양한 NLU 태스크의 many‑shot(in-context) 학습에서 GPT‑2 기반 전통 모델보다 평균 +8% 이상 성능 향상, SQuAD 정확도 +4.5 EM 점수 증가
+*SST‑2, MPQA, SQuAD 등 다양한 NLU 태스크의 many‑shot(in-context) 학습에서 GPT‑2 기반 전통 모델보다 평균 +8% 이상 성능 향상, SQuAD 정확도 +4.5 EM 점수 증가<ref>같은 논문 참조</ref>
 ==장점과 한계==
 *'''장점''': 장기 기억 능력으로 문맥 유지와 복잡한 추론 강화 가능. 메모리 용량 확장성 우수
 *'''한계''': 추가 메모리 네트워크 설계 복잡성과 메모리 크기 및 청크 크기의 하이퍼파라미터 튜닝 필요
-==오픈소스 및 활용==
+== 오픈소스 및 활용==
-Meta는 GitHub에 공식 구현을 공개했으며, 코드는 MIT 계열 라이선스로 배포된다<ref>https://github.com/facebookresearch/LongMem</ref>. 이를 통해 다른 연구자 및 개발자들이 모델에 통합하거나 사용자 맞춤형 장기 기억 기능을 확장하는 데 활용 가능하다.
+LongMem의 공식 구현은 GitHub에서 MIT 라이선스로 제공되며, 누구나 재현 및 응용 가능하다<ref>https://github.com/Victorwz/LongMem</ref>.
 ==같이 보기==
-*
+*[[LLaMA]]
+*[[Retrieval‑Augmented Generation]]
+*[[In‑Context Learning]]
+*[[Transformers]]
+*[[EWE (Explicit Working Memory)]]
 ==각주==
 <references />

익명 사용자

검색

LongMem: 두 판 사이의 차이

이름공간

더 보기

문서 행위

2025년 7월 4일 (금) 02:31 기준 최신판

목차

개요[편집 | 원본 편집]

구조 및 작동 원리[편집 | 원본 편집]

디커플링 네트워크 구조[편집 | 원본 편집]

메모리 증강 어댑테이션 학습[편집 | 원본 편집]

특징 및 성능[편집 | 원본 편집]

장점과 한계[편집 | 원본 편집]

오픈소스 및 활용[편집 | 원본 편집]

같이 보기[편집 | 원본 편집]

각주[편집 | 원본 편집]

둘러보기

둘러보기

광고

위키 도구

위키 도구

익명 사용자

검색

LongMem: 두 판 사이의 차이

2025년 7월 4일 (금) 02:31 기준 최신판

개요[편집 | 원본 편집]

구조 및 작동 원리[편집 | 원본 편집]

디커플링 네트워크 구조[편집 | 원본 편집]

메모리 증강 어댑테이션 학습[편집 | 원본 편집]

특징 및 성능[편집 | 원본 편집]

장점과 한계[편집 | 원본 편집]

오픈소스 및 활용[편집 | 원본 편집]

같이 보기[편집 | 원본 편집]

각주[편집 | 원본 편집]

둘러보기

위키 도구

문서 도구