Ollama (소프트웨어)
IT 위키
Ollama는 로컬에서 대형 언어 모델(LLM)을 쉽게 실행·관리할 수 있도록 설계된 오픈소스 커맨드라인 도구이자 실행 엔진이다. macOS, 리눅스, 윈도우 환경에서 CPU·GPU를 사용해 양자화된 LLM 모델을 다운로드하고 실행할 수 있다.
1 개요[편집 | 원본 편집]
Ollama는 모델 가중치(예: GGUF 형식)를 ollama pull <모델명> 명령으로 로컬에 가져온 후, ollama run <모델명> 명령으로 실행 가능한 환경을 제공한다. 백그라운드 서버가 자동으로 실행되며, REST API를 통해 제어할 수 있다.[1]
2 설치 방법[편집 | 원본 편집]
2.1 macOS[편집 | 원본 편집]
brew install ollama
2.2 Ubuntu/Linux[편집 | 원본 편집]
curl -fsSL https://ollama.com/install.sh | sh
2.3 Windows[편집 | 원본 편집]
공식 웹사이트에서 .exe 설치 파일 다운로드 후 실행
3 주요 기능[편집 | 원본 편집]
- 간편한 모델 관리: pull, run, list, rm, cp, serve 등의 직관적인 명령어 지원
- 양자화된 모델 지원: GGUF 형식 기반 모델 실행
- REST API 제공: http://localhost:11434 에서 HTTP 요청으로 생성 및 채팅 가능
- 멀티 모델 실행: LLaMA3, Mistral, Qwen, Gemma 등 다양한 오픈소스 모델 지원
- 모델 맞춤 설정: Modelfile을 통해 프롬프트, 파라미터 설정 가능
- 크로스 플랫폼: macOS, Linux, Windows, Docker 환경에서 실행 가능
4 사용 예시[편집 | 원본 편집]
모델 다운로드
ollama pull llama3
모델 실행
ollama run llama3 "Hello!"
REST API 호출
curl -X POST http://localhost:11434/api/generate \ -d '{"model":"llama3","prompt":"Why is the sky blue?"}'
Modelfile 예시
FROM llama3 PARAMETER temperature 1 SYSTEM """You are Mario from Super Mario Bros."""
→ ollama create mario -f Modelfile 후 ollama run mario
5 장단점[편집 | 원본 편집]
5.1 장점[편집 | 원본 편집]
- 로컬 자율 실행: 인터넷 연결 없이 LLM 실행 가능
- 양자화 모델 지원: 저장 공간 절약 및 추론 효율 향상
- 간단한 CLI와 직관적 인터페이스
- REST API 제공: 외부 연동 및 자동화에 유리
5.2 단점[편집 | 원본 편집]
- 서버 항상 실행: 백그라운드 데몬 형태로 동작
- 모델 크기 큼: 수 기가바이트 이상 다운로드 필요
- 지원 도구 한정: llama.cpp 생태계 중심
6 통합 생태계[편집 | 원본 편집]
- 프로그래밍 인터페이스: Python(ollama-python), JavaScript(ollama-js)
- LangChain 등 에이전트 프레임워크와 연동 가능
- GUI 도구 연계: SwiftChat, Enchanted, LibreChat, Chatbox 등
7 같이 보기[편집 | 원본 편집]
8 참고 문헌[편집 | 원본 편집]
- Ollama 공식 문서. https://ollama.com
- GitHub - ollama/ollama
- LangChain 공식 통합 가이드
9 각주[편집 | 원본 편집]
- ↑ Ollama 공식 문서. https://ollama.com