1. Ollama 설치 및 서버 실행
Ollama를 사용하려면 먼저 자신의 운영 체제에 맞는 Ollama 애플리케이션을 설치해야 합니다.
- 공식 웹사이트에서 설치: ollama.com에 접속하여 운영 체제(Windows, macOS, Linux 등)에 맞는 설치 파일을 다운로드합니다.
- 설치 진행: 다운로드한 파일을 실행하여 설치를 완료합니다.
설치가 완료되면 Ollama 서버가 백그라운드에서 자동으로 실행됩니다. 만약 서버가 꺼져 있거나 명시적으로 시작하고 싶다면 터미널에서 다음 명령어를 입력하세요. 이 서버는 REST API를 제공하는 핵심 역할을 합니다.
ollama serve
2. 모델 다운로드
REST API로 특정 모델을 사용하려면, 먼저 해당 모델이 로컬에 다운로드되어 있어야 합니다. 터미널에서 ollama pull 명령어를 사용해 원하는 모델을 다운로드할 수 있습니다.
ollama pull llama3
이 명령어는 llama3 모델을 다운로드하며, 모델이 없다면 ollama run 명령어를 사용할 때도 자동으로 다운로드됩니다. 로컬에 설치된 모델 목록은 ollama list 명령어로 확인할 수 있습니다.
ollama list
3. REST API 사용 방법
Ollama 서버는 기본적으로 http://localhost:11434 포트에서 REST API를 제공합니다. 외부 애플리케이션에서는 이 주소로 HTTP POST 요청을 보내어 Ollama의 기능을 활용할 수 있습니다. 모든 요청은 JSON 형식의 본문(body)을 포함해야 합니다.
3.1. 텍스트 생성 (Completion)
단일 프롬프트에 대한 답변을 생성합니다.
- 엔드포인트:
/api/generate - 요청 본문 예시:
{ "model": "llama3", "prompt": "세상에서 가장 큰 동물은 뭐야?" }
3.2. 대화형 채팅 (Chat)
이전 대화의 맥락을 유지하며 연속적인 대화를 나눌 때 사용합니다.
- 엔드포인트:
/api/chat - 요청 본문 예시:
{ "model": "llama3", "messages": [ { "role": "user", "content": "한국의 수도는 어디야?" } ] }
3.3. 임베딩 생성 (Embeddings)
텍스트를 벡터로 변환하여 검색 증강 생성(RAG) 시스템 등에 활용할 수 있습니다.
- 엔드포인트:
/api/embeddings - 요청 본문 예시:
{ "model": "llama3", "prompt": "Ollama는 강력한 도구입니다." }
3.4. 스트리밍 응답
응답을 한 번에 받지 않고, 단어 단위로 실시간으로 받으려면 요청 본문에 "stream": true 옵션을 추가하세요. 이 경우, 응답을 처리하는 로직이 필요합니다.
전체 요약
| 단계 | 명령어 | 설명 |
|---|---|---|
| 설치 및 서버 | ollama serve |
Ollama를 설치하고 서버가 실행 중인지 확인합니다. |
| 모델 준비 | ollama pull llama3 |
API로 사용할 모델을 로컬에 다운로드합니다. |
| API 사용 | http://localhost:11434/... |
ollama serve로 실행된 서버의 API 엔드포인트에 HTTP 요청을 보냅니다. |
이 과정을 통해 Ollama를 설치하고 서버를 실행한 후, 원하는 모델을 다운로드하여 다양한 애플리케이션에서 REST API를 통해 활용할 수 있습니다.
'Etc > AI' 카테고리의 다른 글
| RAG(Retrieval-Augmented Generation) (1) | 2025.07.26 |
|---|---|
| MCP (Model Context Protocol) 이란? (0) | 2025.07.13 |
| Gemini CLI (1) | 2025.07.12 |
