Ollama の使い方|ローカルLLMをインストールから API 連携まで【2026年版】
この記事でわかること
- Ollama とは:1コマンドでローカルにLLMを動かせる実行環境。ネット不要・データが手元に残る・無料
- 導入:Mac/Windows は公式インストーラ、Linux は `curl -fsSL https://ollama.com/install.sh | sh`
- 基本:`ollama run <モデル名>` で実行(未取得なら自動DL)、`ollama pull` で取得のみ、`ollama list` で一覧
- API:起動すると `http://localhost:11434` で REST API が立つ(`/api/generate`・`/api/chat`)。自作アプリから叩ける
- モデル選び:GPUなしは3B以下、ノートPCのGPUありで7B〜14Bが現実的な目安
結論:Ollama は「1コマンドで動くローカルLLM」
Ollama は、自分のPC上で大規模言語モデル(LLM)を動かすための実行環境です。ollama run llama3.2 と打つだけで、モデルのダウンロードから対話までが完結します。
クラウドAPIと違う最大の利点は3つ。(1) ネット接続不要、(2) 入力データが手元に残る(プライバシー)、(3) 無料。試作・学習・機密データの処理に向きます。この記事では、インストールから基本コマンド・モデルの選び方・API連携・Modelfile までを実例で解説します。
インストール
| OS | 方法 |
|---|---|
| macOS | ollama.com からインストーラをDLして実行 |
| Windows | 同上(公式インストーラ) |
| Linux | `curl -fsSL https://ollama.com/install.sh |
インストール後はバックグラウンドにサービスが常駐し、すぐにコマンドが使えます。
基本コマンド
# モデルを実行(ローカルに無ければ自動DL → 対話モードへ)
ollama run llama3.2
# ダウンロードだけする
ollama pull llama3.2
# 導入済みモデルの一覧
ollama list
# モデルを削除
ollama rm llama3.2
ollama run で対話モードに入ったら、プロンプトを入力すると応答が返ります。終了は /bye。初回はモデルのダウンロードに時間がかかりますが、2回目以降は即起動します。
モデルの選び方
モデルは ollama.com のライブラリから 名前 で指定します。サイズや量子化は タグ で選びます。
ollama run llama3.2:3b # 3B(軽量)
ollama run qwen2.5:7b # 7B
ollama run gemma2:9b-instruct-q4_K_M # 量子化を明示
ハードウェア別の現実的な目安:
| 環境 | 目安サイズ |
|---|---|
| CPUのみ(GPUなし) | 3B 以下 |
| ノートPCのGPU | 7B〜14B |
| 高VRAMのGPU | 〜32B 以上も可 |
MoE構成のモデルに注意:活性パラメータが小さくても、重み全体(総パラメータ)をメモリに載せます。タグのサイズ表記と量子化(q4 等)でメモリ要件を見積もります(MoEとは)。
REST API から使う
Ollama 起動中は http://localhost:11434 で REST API が動いています。自作アプリやスクリプトから叩けます。
# 会話形式(/api/chat)
curl http://localhost:11434/api/chat -d '{
"model": "llama3.2",
"messages": [{ "role": "user", "content": "MoEを一言で説明して" }],
"stream": false
}'
# 単発生成(/api/generate)
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "こんにちは",
"stream": false
}'
公式の Python / JavaScript ライブラリ もあり、さらに OpenAI 互換エンドポイント も用意されているため、OpenAI SDK の base_url をローカルに向けるだけで多くのツールから使えます。
Modelfile で自分用モデルを作る
役割や口調を固定したアシスタントを作りたいときは Modelfile を書きます。
FROM llama3.2
SYSTEM "あなたは日本語の技術文書を校正する編集者です。事実を変えず、簡潔に直します。"
PARAMETER temperature 0.3
ollama create jp-editor -f Modelfile
ollama run jp-editor
これで jp-editor という独自モデルが登録され、毎回システムプロンプトを貼らずに使い回せます。
よくあるつまずき
- 応答が遅い / 固まる → モデルが大きすぎてメモリ不足の可能性。小さいサイズや量子化版(
q4_K_M等)に変える。 ollama runがモデルを見つけない → モデル名・タグの綴り違い。ライブラリの正式名で指定する。- APIにつながらない → Ollama サービスが起動しているか、ポート
11434が他プロセスと競合していないか確認。 - GPUが使われない → ドライバ/対応状況を確認。CPU フォールバックだと遅くなる。
まとめ
- Ollama=ローカルでLLMを動かす実行環境。ネット不要・データが手元・無料
- 導入:Mac/Win はインストーラ、Linux は
curl ... | sh - 基本:
ollama run(実行+自動DL)/ollama pull(取得)/list/rm - API:
http://localhost:11434の/api/chat・/api/generate、OpenAI互換あり - モデル選び:CPUは3B以下、ノートGPUは7B〜14B。MoEはVRAMを総パラメータで見積もる
ローカルLLMを業務ワークフローに組み込む:当サイトの「バイブコーディング実践編」では、AIツールを安全に業務へ組み込む手順を、提出物テンプレ + 採点ルーブリック付きの演習で扱います。4週間限定で無料公開中。
関連ガイド:
- MoE(Mixture of Experts)とは — ローカルで動かすモデルの中身を理解する
- MCPサーバーの作り方 — モデルに外部ツールをつなぐ
- Claude Code 入門 — クラウドLLMを使った開発環境の基本
関連する AI 研修コース・事例
このガイドで解説した内容を、提出物・採点ルーブリック付きの実装演習で 実務レベルまで定着させるためのコースと、国内外の AI 活用事例を見るための入口です。
- バイブコーディング実践編 (vibe_practice)Claude Code を業務コードに使うときの安全設定・許可コマンド・ ログ管理を、提出物付き 40 レッスンで体系化。4 週間限定で無料公開中。
- AIエージェント活用実践編 (agent_practice)Claude Agent SDK と MCP で AI を働かせる実装演習。 Claude Code に慣れた次のステップ。
- サイバーセキュリティ基礎 (cybersec_basic)AI を業務に取り入れる際の社内ガードレール・情報統制と一緒に学ぶ 実務者向けセキュリティ 40 レッスン。
- AI 活用事例集KDDI・SAP・freee・メルカリ等、国内外の企業 AI 導入実例を業種別に確認。
- AI研修 コース一覧概論レーン (経営者向け) + 実践レーン (エンジニア向け) の全 6 コースを一覧。