새 문서 목록
IT 위키
- 2025년 10월 9일 (목) 13:50 PyTorch Parameter grad (역사 | 편집) [2,777 바이트] 인공무능 (토론 | 기여) (새 문서: '''Parameter.grad''' 속성(PyTorch)은 '''torch.nn.Parameter''' 객체에 대해 역전파(backpropagation)를 통해 계산된 '''기울기(gradient)''' 를 저장하는 텐서 속성이다. ==개요== *'''Parameter''' 객체는 '''requires_grad=True'''일 때, 손실 함수에 대해 '''loss.backward()'''가 호출되면 '''.grad''' 속성에 기울기 값이 저장된다. <ref>[https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html Autograd tutorial — PyTorch]...) 태그: 시각 편집
- 2025년 10월 9일 (목) 13:45 PyTorch Parameter 클래스 (역사 | 편집) [2,447 바이트] 인공무능 (토론 | 기여) (새 문서: Parameter(PyTorch의 torch.nn.Parameter)는 학습 가능한 모델 파라미터를 나타내는 '''특수 텐서''' 클래스이다. 일반 텐서와 달리 모듈(nn.Module)에 속성으로 할당되면 자동으로 모델의 학습 대상 파라미터로 등록된다. ==개요== *'''Parameter'''는 '''torch.Tensor'''를 상속한 클래스이다. <ref>[https://pytorch.org/docs/stable/generated/torch.nn.parameter.Parameter.html Parameter — PyTorch]</ref> *생성 형식은...) 태그: 시각 편집
- 2025년 10월 9일 (목) 13:30 LASSO (역사 | 편집) [4,603 바이트] 인공무능 (토론 | 기여) (새 문서: LASSO(Least Absolute Shrinkage and Selection Operator, 라쏘 회귀)는 회귀 분석 기법의 하나로, 가중치의 절댓값 합(ℓ₁ 노름)에 패널티를 부과하여 과적합을 방지하고 변수 선택(feature selection) 효과를 동시에 얻는 정규화된 회귀 방식이다. ==정의 및 수식== LASSO 회귀는 전통적 최소 제곱법(OLS, Ordinary Least Squares)의 손실 함수에 ℓ₁ 페널티 항을 추가한 형태로 정의된다. 목적 함...) 태그: 시각 편집
- 2025년 10월 9일 (목) 13:27 L1 정규화 (역사 | 편집) [2,368 바이트] 인공무능 (토론 | 기여) (새 문서: L1 정규화(L1 Regularization, 라쏘(Lasso) 규제)는 기계 학습 및 통계 모델에서 과적합(overfitting)을 방지하고 모델의 복잡도를 제어하기 위해 사용하는 정규화 기법 중 하나다. 이 방식은 가중치 벡터의 절댓값 합(ℓ₁ 노름)에 패널티를 부여하는 방식이다. ==정의 및 수식== L1 정규화에서는 기본 손실 함수(예: 평균 제곱 오차, 교차 엔트로피 등)에 다음과 같은 패널티 항을...) 태그: 시각 편집
- 2025년 10월 9일 (목) 12:46 베이지안 심층 신경망 (역사 | 편집) [3,507 바이트] 인공무능 (토론 | 기여) (새 문서: 베이지안 심층 신경망(Bayesian Deep Neural Network, BNN 또는 Bayesian Deep Learning)은 전통적 인공신경망의 가중치 및 매개변수(parameter)를 고정값이 아닌 확률분포로 모델링하여, 예측의 불확실성까지 함께 고려할 수 있는 심층 신경망 모델이다. ==개념 및 동기== - 전통적 신경망은 학습 후 각 가중치가 고정된 값으로 결정되지만, 베이지안 심층 신경망에서는 각 가중치가 사전...) 태그: 시각 편집
- 2025년 10월 9일 (목) 12:44 변분 추론 (역사 | 편집) [2,320 바이트] 인공무능 (토론 | 기여) (새 문서: 변분 추론(Variational Inference, VI)은 베이지안 추론에서 직접 계산하기 어려운 사후 확률 분포를, 최적화 기법을 활용해 해석 가능한 분포군 안에서 근사하는 방식이다. ==개념 및 기본 아이디어== *베이지안 통계 모델에서는 관측 데이터 \(x\)와 잠재 변수 \(z\)가 있을 때 사후 분포 \(p(z|x)\)를 구하는 것이 핵심 목표지만, 보통 이 분포는 적분이 불가능하거나 계산이 매우...) 태그: 시각 편집
- 2025년 10월 9일 (목) 12:43 변분 자유 에너지 (역사 | 편집) [3,173 바이트] 인공무능 (토론 | 기여) (새 문서: 변분 자유 에너지(Variational Free Energy)는 베이지안 추론, 정보 이론, 인지 신경과학 등에서 사용되는 함수로, 관측된 데이터와 내부 생성 모델 간의 불일치를 정량화하는 수학적 척도이다. * 자유 에너지 원리(Free Energy Principle)에서의 "자유 에너지"는 통계물리학적 개념이 아니라 이 변분 자유 에너지를 의미한다. ==개념== 변분 자유 에너지는 주...) 태그: 시각 편집
- 2025년 10월 9일 (목) 12:39 평형 전파 (역사 | 편집) [4,932 바이트] 인공무능 (토론 | 기여) (새 문서: 평형 전파(Equilibrium propagation, EP)는 에너지 기반 모델(energy‑based model)을 학습하기 위한 생물학적으로 더 타당한 알고리즘으로, 추론과 학습 단계를 통합하여 동일한 신경 회로(dynamic)를 사용하면서 역전파(backpropagation)와 유사한 기울기 계산을 가능하게 하는 방식이다 <ref>[https://arxiv.org/abs/1602.05179 Equilibrium Propagation: Bridging the Gap Between Energy‑Base...) 태그: 시각 편집
- 2025년 10월 9일 (목) 12:36 능동 추론 (역사 | 편집) [3,350 바이트] 인공무능 (토론 | 기여) (새 문서: 능동 추론(Active Inference)은 자유 에너지 원리(Free Energy Principle)를 행동까지 확장한 이론적 틀로, 지각(perception) 뿐만 아니라 행위(action)도 내부 모델과 예측 오차 최소화 관점에서 설명한다 <ref>[https://direct.mit.edu/books/oa-monograph/5299/Active-InferenceThe-Free-Energy-Principle-in-Mind Active Inference: The Free Energy Principle in Mind, Brain, and Behavior, MIT Press]</ref> ==개념 및 기본 원리== Active Infere...) 태그: 시각 편집
- 2025년 10월 9일 (목) 12:35 베이지안 뇌 가설 (역사 | 편집) [3,972 바이트] 인공무능 (토론 | 기여) (새 문서: 베이지안 뇌 가설(Bayesian Brain Hypothesis)은 뇌가 감각 입력 아래 숨겨진 원인(hidden causes)을 추론하기 위해 확률적 모델(생성 모델, generative model)을 내재적으로 사용하며, 그 모델과 입력의 불일치를 최소화하는 방식으로 지각 및 인지를 수행한다는 가설이다. ==개념과 기본 아이디어== 베이지안 뇌 가설의 핵심은 다음과 같다: *뇌는 감각 입력이 발생한 원인을 내부적으...) 태그: 시각 편집
- 2025년 10월 9일 (목) 12:29 예측 부호화 (역사 | 편집) [4,325 바이트] 인공무능 (토론 | 기여) (새 문서: Predictive coding(예측 부호화, 혹은 predictive processing)는 뇌가 감각 입력을 단순히 수동적으로 받아들이는 것이 아니라, 내부 모델을 통해 감각 입력을 예측하고, 실제 입력과 예측 간의 차이(예측 오차)를 이용해 내부 표현과 모형을 지속적으로 수정함으로써 지각 및 인지를 수행한다는 이론이다 <ref>[https://arxiv.org/abs/2107.12979 Predictive Coding: a Theoretical and Experimental Review,...) 태그: 시각 편집
- 2025년 10월 9일 (목) 12:24 대조적 헤비안 학습 (역사 | 편집) [3,120 바이트] 인공무능 (토론 | 기여) (새 문서: 대조적 헤비안 학습(Contrastive Hebbian Learning, CHL)은 전통적인 헤비안 학습 규칙을 확장한 방식으로, 출력 뉴런을 고정(clamp)한 상태와 자유 상태(free state)에서의 신경망 상태 차이를 이용해 가중치를 갱신하는 생물학적 학습 알고리즘이다. ==개념 및 동작 방식== CHL은 두 단계(phase)를 거쳐 학습을 수행한다: *'''자유 상태 (Free phase)''': 입력만 고정하고 출력은 자유롭게 활...) 태그: 시각 편집
- 2025년 10월 9일 (목) 12:17 헤비안 학습 (역사 | 편집) [2,646 바이트] 인공무능 (토론 | 기여) (새 문서: 헤비안 학습(Hebbian Learning)은 신경세포 간의 활동 상관관계에 기반하여 시냅스 강도를 조정하는 학습 규칙으로, 일반적으로 "함께 발화하는 뉴런들이 연결된다(neurons that fire together, wire together)"는 방식으로 요약된다. ==개념 및 기본 원리== 헤비안 학습은 두 뉴런이 동시에 활발히 활성화될 때 그 사이의 시냅스 연결이 강화된다는 원칙에 기반한다. 이 규칙은 신경가...) 태그: 시각 편집
- 2025년 10월 9일 (목) 12:12 자유 에너지 원리 (역사 | 편집) [3,968 바이트] 인공무능 (토론 | 기여) (새 문서: 자유 에너지 원리(Free Energy Principle, FEP)는 생명체 또는 인지 시스템이 주변 환경과의 상호작용 속에서 내부 상태와 행동을 조정해 나가며, '''변분 자유 에너지(variational free energy)''' 를 최소화하려 한다는 이론적 원칙이다. == 개념 및 기본 아이디어 == 자유 에너지 원리는 시스템이 “놀람(surprise, 관찰된 감각 입력이 내부 모델 하에서 얼마나 불가능해 보이는가)”을...)
- 2025년 10월 9일 (목) 12:09 예측 부호화 신경망 (역사 | 편집) [3,892 바이트] 인공무능 (토론 | 기여) (새 문서: 예측 부호화 신경망(Predictive Coding Networks, PCNs)은 뇌가 감각 입력을 예측하고, 예측과 실제 입력의 차이(오차)를 통해 내부 표현을 조정함으로써 정보를 처리하는 매커니즘을 모방한 계층적 인공 신경망 구조이다. ==개념 및 배경== 예측 부호화(predictive coding)는 뇌가 환경에 대한 내부 모델을 통해 감각 정보를 능동적으로 예측하고, 그 예측과 실제 입력의 오차를 줄이...) 태그: 시각 편집
- 2025년 10월 9일 (목) 06:10 블록 부동소수점 양자화 (역사 | 편집) [9,114 바이트] 인공무능 (토론 | 기여) (새 문서: 블록 부동소수점(블록 부동소수점 양자화, Block Floating‑Point Quantization)은 여러 값들을 하나의 공통 지수(exponent)를 공유하는 방식으로 표현하는 양자화 기법이다. 즉, 블록 내부의 여러 데이터(예: 동일 텐서의 일부 원소들)가 동일한 지수를 사용하고, 각 원소는 공유 지수에 대해 상대적 소수부(mantissa)만을 갖는 방식이다. ==개념 및 배경== 전통적인 IEEE 부동소수점...) 태그: 시각 편집
- 2025년 10월 9일 (목) 05:50 학습 가능한 양자화 기법 (역사 | 편집) [3,860 바이트] 인공무능 (토론 | 기여) (새 문서: * 상위 문서: 신경망 양자화 * 상위 문서: 신경망 양자화 기법 '''학습 가능한 양자화(Learnable Quantization) 기법'''은 양자화의 하이퍼파라미터(예: 클리핑 한계, 구간 간격, 스케일 등)를 고정하지 않고, 학습 과정에서 함께 최적화하는 방식이다. * 이 접근법은 모델이 양자화 오차에 스스로 적응하도록 만들어 정확도 손실을 최소화한다. == PACT (Parameterized Clipping...) 태그: 시각 편집
- 2025년 10월 9일 (목) 02:17 가중치 크기 기반 가지치기 (역사 | 편집) [3,723 바이트] 인공무능 (토론 | 기여) (새 문서: '''가중치 크기 기반 가지치기'''는 딥러닝 모델에서 중요도가 낮은 가중치를 제거하여 연산량과 모델 크기를 줄이는 대표적인 가지치기(pruning) 기법이다. 가지치기 대상은 일반적으로 절댓값이 작은 가중치로 간주되며, 이를 제거하여 희소성(sparsity)을 유도한다. ==개념== 가중치 크기 기반 가지치기는 학습이 완료된(또는 진행 중인) 신경망에서 각 가중치의 절댓값...) 태그: 시각 편집
- 2025년 10월 9일 (목) 01:38 CIFAR 데이터셋 (역사 | 편집) [3,661 바이트] 인공무능 (토론 | 기여) (새 문서: '''CIFAR 데이터셋'''은 이미지 인식 및 머신러닝 연구에서 널리 사용되는 소형 컬러 이미지 데이터셋이다. 대표적으로 '''CIFAR-10'''과 '''CIFAR-100'''이 존재하며, 각기 다른 분류 수준을 제공한다. ==개요== CIFAR는 "Canadian Institute for Advanced Research"의 약자로, 원래는 MIT의 Tiny Images 프로젝트에서 파생된 데이터셋이다. 이 데이터셋들은 32×32 픽셀 크기의 컬러 이미지로 구성되...) 태그: 시각 편집
- 2025년 10월 9일 (목) 01:33 ResNet (역사 | 편집) [10,165 바이트] 인공무능 (토론 | 기여) (새 문서: '''ResNet'''(Residual Network)은 딥러닝에서 층이 매우 깊은 신경망을 안정적으로 학습하기 위해 제안된 구조이다. ==개요== ResNet은 입력을 그대로 다음 층에 더해주는 '''스킵 연결(skip or shortcut connection)'''을 도입하여, 각 층이 원래 함수 H(x)를 직접 학습하는 대신 잔차(residual) 함수 F(x) = H(x) - x를 학습하도록 재정의한 구조이다. 이 방식은 기울기 소실(vanishing gradient) 문제...) 태그: 시각 편집
- 2025년 10월 9일 (목) 01:20 파이썬 (역사 | 편집) [3,645 바이트] 인공무능 (토론 | 기여) (새 문서: '''파이썬'''(영어: Python)은 범용 고수준 프로그래밍 언어로, 가독성과 생산성을 강조하며 설계되었다. ==개요== 파이썬은 인터프리터 방식으로 실행되며, 동적 타이핑 및 자동 메모리 관리 기능을 제공한다. 여러 프로그래밍 패러다임(절차적, 객체지향, 함수형 등)을 지원하며, 방대한 표준 라이브러리와 생태계를 갖춘 언어이다. ==역사== 파이썬은 1980년대 말 네덜란...) 태그: 시각 편집
- 2025년 10월 9일 (목) 01:19 Jupyter Notebook (역사 | 편집) [3,551 바이트] 인공무능 (토론 | 기여) (새 문서: '''Jupyter Notebook'''은 웹 기반 대화형 컴퓨팅 환경으로, 코드, 설명 텍스트, 시각화 등을 하나의 문서 내에서 통합하여 실행할 수 있게 해 준다. ==개요== Jupyter Notebook은 웹 브라우저를 통해 노트북(.ipynb) 문서를 작성하고 실행할 수 있는 서버‑클라이언트 응용 프로그램이다. 사용자는 코드 셀, 마크다운 셀, 수식, 그래프, 이미지 등을 조합하여 분석 흐름을 문서화할...) 태그: 시각 편집
- 2025년 10월 9일 (목) 01:17 Google Colab (역사 | 편집) [3,748 바이트] 인공무능 (토론 | 기여) (새 문서: '''Google Colab'''(영어: Google Colaboratory)은 사용자가 웹 브라우저에서 파이썬 코드를 작성하고 실행할 수 있게 해 주는 클라우드 기반 노트북 환경이다. 구글이 제공하며, 별도의 로컬 설정 없이도 GPU/TPU 등의 계산 자원을 활용할 수 있다. ==개요== Google Colab은 Jupyter Notebook 환경을 클라우드에서 호스팅한 서비스다. 사용자는 로컬에 파이썬 환경을 구축할 필요 없이, 브라...) 태그: 시각 편집
- 2025년 10월 9일 (목) 01:11 신경망 양자화 (역사 | 편집) [8,335 바이트] 인공무능 (토론 | 기여) (새 문서: 모델 양자화(模型量子化, Model Quantization)는 딥러닝 모델의 수치 표현 정밀도를 낮춰 메모리 사용량과 연산량을 줄이는 최적화 기법이다. 주로 대형 언어 모델(LLM)이나 모바일·엣지 디바이스에서 효율적인 추론을 위해 사용된다. ==개요== 딥러닝 모델은 일반적으로 32비트 부동소수점(float32)으로 학습되지만, 추론 시에는 16비트(float16), 8비트(int8), 4비트(int4) 등 더 낮...)
- 2025년 10월 8일 (수) 12:13 와우 시그널 (역사 | 편집) [5,159 바이트] 외계인 (토론 | 기여) (새 문서: 섬네일|Wow! Signal 와우 시그널(Wow! signal)은 1977년 8월 15일 미국 오하이오주의 빅 이어(Big Ear) 전파 망원경이 포착한 정체불명의 강한 협대역 라디오 신호이다. ==개요== 이 신호는 오하이오 주립대학의 전파 망원경인 빅 이어(Big Ear)가 1420 MHz 근처의 주파수 대역에서 수신한 것으로, 수소 원자의 스펙트럼 선과 일치하는 주파수이기 때문에 외계...) 태그: 시각 편집
- 2025년 10월 8일 (수) 08:56 Codecov (역사 | 편집) [3,287 바이트] Agiler (토론 | 기여) (새 문서: Codecov은 테스트 커버리지를 시각화하고 관리하는 서비스로서, 개발자가 코드베이스 내 어느 부분이 테스트되고 있는지 쉽게 파악할 수 있게 해준다. ==개요== Codecov은 CI(지속 통합) 도구와 연동되어 테스트 실행 결과로 생성된 커버리지 리포트(예: lcov, cobertura, coverage.py 등)를 업로드하고, 이를 기반으로 커버리지 비율, 변경에 따른 커버리지 증감, 소스 코드 위에 커...) 태그: 시각 편집
- 2025년 10월 8일 (수) 07:29 GitHub Actions (역사 | 편집) [6,935 바이트] Agiler (토론 | 기여) (새 문서: GitHub Actions는 GitHub 저장소 내에서 워크플로우(workflows)를 자동화할 수 있게 해 주는 CI/CD 및 이벤트 기반 자동화 플랫폼이다. ==개념 및 구성 요소== GitHub Actions는 저장소에 `.github/workflows/` 디렉터리에 YAML 형식의 워크플로우 정의 파일을 두고, 특정 이벤트(push, pull_request 등)가 발생할 때 자동으로 일련의 작업(job)을 실행시키는 구조다. 주요 구성 요소는 다음과 같...) 태그: 시각 편집
- 2025년 10월 8일 (수) 04:43 신경망 양자화 기법 (역사 | 편집) [3,802 바이트] 인공무능 (토론 | 기여) (새 문서: * 상위 문서: 신경망 양자화 양자화 기법(Quantization Techniques)은 딥러닝 모델을 경량화하고 연산 효율을 높이기 위해 사용되며, 다양한 기준에 따라 여러 방식으로 분류된다. ==가중치 vs 활성화 양자화== 양자화는 대상에 따라 크게 가중치 양자화와 활성화 양자화로 나눌 수 있다. *'''가중치 양자화 (Weight Quantization)''': **모델의 학습된 파라미터(가중치)를 정수 또는...) 태그: 시각 편집
- 2025년 10월 8일 (수) 04:21 상대적 정밀도 (역사 | 편집) [3,062 바이트] 인공무능 (토론 | 기여) (새 문서: 상대적 정밀도란 수치 해석 또는 컴퓨터에서 실수를 근사 표현할 때, 수의 크기에 비례한 정밀도 유지 정도를 의미한다. 즉, 표현 가능한 오차(절대 오차)가 수의 절댓값에 비례해 커지거나 작아지더라도, 그 비율이 일정하게 유지되는 성질이다. ==정의== 부동소수점 표현에서, 어떤 실수 x를 근사값 x̃로 표현한다고 할 때, 상대 오차는 다음과 같이 정의된다: 상대...) 태그: 시각 편집
- 2025년 10월 8일 (수) 04:10 부동소수점 표현 (IEEE 754 규격) (역사 | 편집) [5,274 바이트] 인공무능 (토론 | 기여) (새 문서: 부동소수점 표현이란 유한한 비트 수로 실수를 근사해서 표현하는 방식으로, IEEE 754는 현재 컴퓨터 시스템에서 가장 널리 쓰이는 부동소수점 연산 표준이다. ==개요== 부동소수점 표현에서는 실수 x를 다음과 같이 구성된 요소로 표현한다: *부호 비트 (sign) *지수부 (exponent) *가수부 또는 유효숫자 부분 (significand 혹은 mantissa) 이 표현은 마치 과학적 표기법(예: ±1.xxx...) 태그: 시각 편집
- 2025년 10월 8일 (수) 03:49 GGUF 포맷 (역사 | 편집) [5,494 바이트] 인공무능 (토론 | 기여) (새 문서: '''GGUF'''(Generic GPT Unified Format)은 대형 언어 모델(LLM)의 텐서와 메타데이터를 통합 저장하는 바이너리 '''모델 포맷'''으로, llama.cpp 기반의 로컬 추론 환경에서 사용된다. 이 포맷은 이전 GGML 포맷의 한계를 보완하여, 다양한 양자화 형식과 모델 관련 정보를 함께 포함할 수 있도록 설계되었다. ==개요== GGUF는 General Graphical Model Library(GGML) 기반의 추론 시스템을 위해 만...)
- 2025년 10월 7일 (화) 08:58 오라클 WebLogic (역사 | 편집) [3,967 바이트] 계발자 (토론 | 기여) (새 문서: Oracle WebLogic Server(줄여서 WebLogic)은 자바 엔터프라이즈 애플리케이션 서버로, Java EE(현재 Jakarta EE) 기반 애플리케이션을 개발하고 배포하기 위한 플랫폼이다. 이 서버는 온프레미스 또는 클라우드 환경에서 고성능, 확장성, 관리 편의성을 제공하는 미들웨어 역할을 한다. ==역사 및 배경== WebLogic은 원래 WebLogic, Inc.에서 개발한 J2EE 애플리케이션 서버였으며, 1998년 BEA...) 태그: 시각 편집
- 2025년 10월 7일 (화) 08:48 오라클 ADF (역사 | 편집) [5,273 바이트] 계발자 (토론 | 기여) (새 문서: 오라클 ADF(Oracle Application Development Framework)은 자바 엔터프라이즈 애플리케이션 개발을 위한 프레임워크이다. 이 프레임워크는 선언적(declarative) 개발, 시각적 도구, MVC 구조, 데이터 바인딩 추상화를 결합하여 개발 생산성을 높이기 위해 설계되었다. ==개요== Oracle ADF는 Java EE 표준과 일부 오픈 소스 기술을 기반으로 구축된 엔드투엔드 애플리케이션 프레임워크이다....) 태그: 시각 편집
- 2025년 10월 7일 (화) 07:14 조건부 에너지 기반 모델 (역사 | 편집) [6,940 바이트] 인공무능 (토론 | 기여) (새 문서: 조건부 에너지 기반 모델(conditional energy-based model)은 에너지 기반 모델(Energy Based Model, EBM)의 확장 형태로, 입력이나 조건 변수(condition)에 의존하여 출력 분포을 정의하는 모델이다. 즉 일반적인 EBM이 변수 \(x\) 만을 대상으로 에너지 함수를 정의하는 반면, 조건부 EBM은 \((x, y)\) 또는 \((y \mid x)\) 형태에서 에너지를 정의하고, 주어진 조건 하에서의 확률 분포을 암묵적...) 태그: 시각 편집
- 2025년 10월 6일 (월) 12:09 Adam 옵티마이저 (역사 | 편집) [5,399 바이트] 인공무능 (토론 | 기여) (새 문서: Adam 옵티마이저는 "Adaptive Moment Estimation"의 약자로, 확률적 경사 하강법(SGD)에 기반하면서 각 파라미터마다 적응적으로 학습률을 조절하는 딥러닝 최적화 알고리즘이다. ==개요== Adam은 2014년 Diederik P. Kingma와 Jimmy Ba가 제안한 알고리즘으로, 모멘텀(Momentum) 기법과 RMSProp 알고리즘의 장점을 결합한 형태다. 기울기의 1차 모멘트(평균)와 2차 모멘트(분산)를 추정하여 파...) 태그: 시각 편집
- 2025년 10월 6일 (월) 12:05 AdamW 옵티마이저 (역사 | 편집) [3,711 바이트] 인공무능 (토론 | 기여) (새 문서: AdamW 옵티마이저는 Adam 최적화 알고리즘의 변형으로, 가중치 감쇠(weight decay)를 그래디언트 업데이트로부터 분리(decouple)하여 일반화 성능을 향상시키는 방법이다. ==개요== 딥러닝에서 자주 사용되는 Adam(Adaptive Moment Estimation) 옵티마이저는 1차 및 2차 모멘트를 활용하여 각 파라미터별로 적응적인 학습률을 적용한다. 일반적으로 정규화를 위해 L2 정규화 항을 손실 함...) 태그: 시각 편집
- 2025년 10월 4일 (토) 06:26 단위 행렬 (역사 | 편집) [2,057 바이트] 파이러너 (토론 | 기여) (새 문서: 단위 행렬(영어: identity matrix, 일명 단위원행렬)은 정사각 행렬 중 대각 성분이 모두 1이고 나머지 성분이 모두 0인 행렬이다. ==정의== 단위 행렬은 n×n 크기의 행렬로, 대각선 성분은 모두 1이고 그 외 성분은 모두 0으로 정의된다. ==기호와 표기== *보통 I 또는 Iₙ으로 표기하며, 문맥상 크기가 명확하면 단순히 I로 쓰기도 한다. <ref>“Identity matrix”, Encyclopedia of Mathemati...) 태그: 시각 편집
- 2025년 10월 4일 (토) 06:20 PyTorch eye (역사 | 편집) [3,622 바이트] 파이러너 (토론 | 기여) (새 문서: torch.eye(영어: eye)은 주대각선이 1이고 나머지가 0인 2차원 텐서(단위 행렬)를 생성하는 PyTorch의 함수이다. ==개요== *<code>torch.eye</code>는 크기 <code>n×m</code>(<code>m</code> 미지정 시 <code>n×n</code>)의 단위 행렬을 반환한다. *반환 텐서는 기본적으로 밀집(dense) 레이아웃이며, 주대각선 원소는 1, 그 외는 0이다. ==시그니처== *<code>torch.eye(n, m=None, *, out=None, dtype=None, layout=torch.st...) 태그: 시각 편집
- 2025년 10월 4일 (토) 06:14 PyTorch sparse (역사 | 편집) [5,348 바이트] 파이러너 (토론 | 기여) (새 문서: '''torch.sparse'''은 PyTorch에서 희소 텐서(sparse tensor)를 다루기 위한 기능 집합이다. ==개요== 희소 텐서는 대부분의 원소가 0인 고차원 배열을 효율적으로 표현하기 위한 자료구조이다. PyTorch에서는 여러 희소 표현(layout) 방식을 지원하며, <code>torch.sparse</code> 모듈 및 관련 함수들이 이 기능을 제공한다. ==표현 방식 및 레이아웃== PyTorch는 여러 희소 레이아웃을 지원한다....) 태그: 시각 편집
- 2025년 10월 2일 (목) 07:57 N:M 희소성 (역사 | 편집) [2,616 바이트] 인공무능 (토론 | 기여) (새 문서: N:M 희소성(N:M sparsity)은 신경망 가중치 행렬에서 연속된 M개의 항목 그룹 중 N개의 항목만 비제로(nonzero) 값으로 유지하는 방식의 구조적 희소성이다. ==개념== *각 그룹(블록) 내 M개의 연속된 가중치 중 N개만 남기고 나머지를 0으로 만든다. *예를 들어 2:4 희소성은 매 4개의 가중치에서 2개만 활성화시키고 나머지를 제거하는 패턴이다. *이 방식은 완전 비구조 희소성(...) 태그: 시각 편집
- 2025년 10월 2일 (목) 07:50 Wanda 가지치기 (역사 | 편집) [2,523 바이트] 인공무능 (토론 | 기여) (새 문서: '''Wanda''' 가지치기(Wanda Pruning, Pruning by '''W'''eights '''and''' '''A'''ctivations)는 대규모 언어 모델(LLM)을 추가 학습 없이도 효과적으로 희소화하는 방법으로, 각 가중치의 중요도를 가중치 크기와 입력 활성화의 크기의 곱으로 평가하는 방식이다. ==개념== *Wanda는 사전 학습된 모델에 대한 제로샷 가지치기 방식이다. *기존의 magnitude pruning은 단순히 가중치 절댓값만 기준...) 태그: 시각 편집
- 2025년 10월 2일 (목) 07:45 자기 회귀 모델 (역사 | 편집) [2,406 바이트] 인공무능 (토론 | 기여) (새 문서: 자기 회귀 모델(Autoregressive Model)은 시계열 데이터 또는 순차적 데이터의 현재 값을 과거 값들의 선형 또는 비선형 결합으로 예측하는 모델이다. ==개념== *자기 회귀(autoregression)란, 변수 자체의 이전 시점 값들을 입력으로 사용하여 현재 값을 예측하는 방식이다. *일반적인 형식은 다음과 같다: Y_t = c + φ₁Y_{t−1} + φ₂Y_{t−2} + ... + φ_pY_{t−p} + ε_t * 여기서 p는...) 태그: 시각 편집
- 2025년 10월 2일 (목) 07:43 KV 캐시 (역사 | 편집) [2,714 바이트] 인공무능 (토론 | 기여) (새 문서: KV 캐시(Key-Value Cache)는 트랜스포머 기반 오토리그레시브 언어 모델에서, 이전 토큰의 정보를 저장하여 추론 시 반복 계산을 줄이기 위해 사용하는 캐시 구조이다. ==개념== *트랜스포머 디코더는 각 층에서 self-attention을 계산할 때, 이전 토큰의 key와 value 벡터를 반복적으로 참조한다. *이를 효율화하기 위해 한 번 계산한 key와 value를 캐시에 저장해 두고, 이후 토큰 생...) 태그: 시각 편집
- 2025년 10월 2일 (목) 07:30 KV 캐시 가지치기 (역사 | 편집) [3,501 바이트] 인공무능 (토론 | 기여) (새 문서: KV 캐시 가지치기(KV Cache Pruning)는 트랜스포머 기반 언어 모델의 추론 단계에서 사용하는 '''Key-Value 캐시'''의 크기를 줄이기 위해 일부 K/V 쌍을 제거하거나 압축하는 기법이다. ==개념 및 배경== *트랜스포머 기반의 자기 회귀 모델에서는 이전 토큰의 Key와 Value를 캐시(KV 캐시)해 두고, 이후 토큰 생성 시 재사용한다. *이 방식은 중복 계산을 피하게 해주지만, 문맥...) 태그: 시각 편집
- 2025년 10월 2일 (목) 07:26 신경망 가지치기 (역사 | 편집) [4,548 바이트] 인공무능 (토론 | 기여) (새 문서: 가지치기(영어: Pruning)는 딥 러닝에서 신경망의 불필요한 파라미터(가중치나 뉴런 연결)를 제거하여 모델의 크기를 줄이고 연산 효율을 높이는 기법이다. 이는 나무의 불필요한 가지를 잘라내는 원예 작업에서 유래한 용어로, 신경망의 성능은 유지하면서도 경량화를 달성하기 위해 사용된다. ==개요== *딥 러닝 모델은 수백만~수십억 개의 파라미터를 가지며, 이 중...)
- 2025년 10월 2일 (목) 07:25 반복적 가지치기 (역사 | 편집) [2,525 바이트] 인공무능 (토론 | 기여) (새 문서: 반복적 가지치기(Iterative Pruning)는 신경망 모델의 불필요한 가중치를 점진적으로 제거하고, 각 단계마다 재학습(fine‑tuning)을 통해 성능 손실을 보정하는 방식이다. ==개념== *한 번에 많은 가중치를 제거하면 모델 성능이 급격히 저하될 수 있기 때문에, 반복적으로 조금씩 제거하는 전략을 사용한다. *각 반복 주기마다: **중요도가 낮은 가중치 또는 구조를 제거 **제...) 태그: 시각 편집
- 2025년 10월 2일 (목) 07:20 제로샷 가지치기 (역사 | 편집) [3,490 바이트] 인공무능 (토론 | 기여) (새 문서: 제로샷 가지치기 또는 제로샷 프루닝(Zero-Shot Pruning)은 사전 학습된 신경망 모델을 추가 학습 없이 곧바로 가지치기(pruning)하는 기법으로, 재학습(fine-tuning)이나 반복 최적화 없이 모델의 구조를 경량화하는 데 목적이 있다. ==개념== *전통적인 프루닝은 모델 학습 중간 또는 이후에 반복적으로 가중치를 제거하고 재학습하는 절차를 필요로 한다. *...) 태그: 시각 편집
- 2025년 10월 2일 (목) 07:08 에너지 기반 모델 (역사 | 편집) [3,687 바이트] 인공무능 (토론 | 기여) (새 문서: 섬네일|에너지 기반 모델 학습 과정 개념도 에너지 기반 모델(Energy-Based Model, EBM)은 입력과 출력 구성(configuration)에 대해 스칼라 에너지 함수를 정의하고, 낮은 에너지를 갖는 구성일수록 더 가능성 있는 상태로 간주하는 기계 학습 모델이다. ==개념== *EBM은 통계 물리학의 개념을 차용하여, 가능한 구성들에 대해 에너지...) 태그: 시각 편집
- 2025년 10월 2일 (목) 06:54 희소 행렬 압축 (역사 | 편집) [4,449 바이트] 인공무능 (토론 | 기여) (새 문서: 희소 행렬 압축(sparse matrix compression)은 요소의 대부분이 0인 희소 행렬을 저장 및 계산할 때, 0이 아닌 원소만을 효율적으로 표현하여 메모리와 연산 효율을 높이는 기술이다. ==개념 및 필요성== *희소 행렬(sparse matrix)이란 행렬 원소 중 0이 아닌 값(nonzero)이 전체 원소 대비 매우 적은 비율을 차지하는 행렬이다. *밀집 행렬(dense matrix) 방식으로 저장하면 많은 0 값도 공...) 태그: 시각 편집
- 2025년 10월 2일 (목) 06:52 COO (압축) (역사 | 편집) [3,490 바이트] 인공무능 (토론 | 기여) (새 문서: COO (Coordinate, 또는 triplet 형식)은 희소 행렬을 저장할 때 가장 직관적이고 간단한 방식 중 하나이다. ==개념== COO 방식은 비제로(nonzero) 원소 각각을 (행 인덱스, 열 인덱스, 값) 튜플로 표현하는 방식이다. 즉, 세 개의 배열(행 인덱스 배열, 열 인덱스 배열, 값 배열)을 병렬로 유지하며, 배열의 같은 위치에서 대응되는 원소들이 하나의 비제로 항목을 나타낸다. ==구성...) 태그: 시각 편집