Ollama とは何ですか？

ローカル（自分のPC）で大規模言語モデル（LLM）を簡単に実行・管理できるツールです。`ollama run ` の1コマンドでモデルのダウンロードから対話までを行えます。クラウドAPIと違い、インターネット接続なしで動き、入力データが手元に残るためプライバシー面で有利。無料で使えます。

対応OSとインストール方法は？

macOS・Windows・Linux に対応します。Mac と Windows は公式サイト（ollama.com）からインストーラをダウンロードして実行するだけ。Linux はターミナルで `curl -fsSL https://ollama.com/install.sh | sh` を実行します。インストール後はサービスが常駐し、すぐ `ollama run` が使えます。

ollama run と ollama pull の違いは？

`ollama pull ` はモデルをダウンロードするだけ。`ollama run ` はモデルを実行し対話モードに入りますが、ローカルに無い場合は自動でダウンロードしてから起動します。つまり初回は `ollama run` だけでも動きます。事前に取得だけしておきたいときに `pull` を使います。

どのモデル・サイズを選べばいい？

ハードウェア次第です。目安として、GPUなし（CPUのみ）なら3B以下の小型モデル、ノートPCのGPUありなら7B〜14Bあたりが現実的です。MoE構成のモデルは活性パラメータが小さくても総パラメータ分のメモリが必要なので、サイズはタグ（例 `:7b`、量子化 `:q4_K_M`）で確認します（[MoEの仕組み](/lms/guides/mixture-of-experts)）。

Ollama の API はどう使いますか？

Ollama を起動すると、ローカルに `http://localhost:11434` で REST API サーバーが立ちます。`/api/generate`（単発生成）や `/api/chat`（会話形式）に JSON を POST すると応答が返ります。公式の Python / JavaScript ライブラリもあり、自作アプリやスクリプトから組み込めます。OpenAI 互換エンドポイントも用意されています。

Modelfile とは何ですか？

ベースモデル・システムプロンプト・温度などのパラメータをまとめた設定ファイルです。`FROM llama3.2` のようにベースを指定し、`SYSTEM \"あなたは丁寧な校正者です\"` のように役割を固定して、`ollama create my-editor -f Modelfile` で自分用モデルとして登録できます。用途特化のアシスタントを再利用したいときに便利です。

Ollama を Claude Code などの開発に使えますか？

使えます。Ollama の API は OpenAI 互換エンドポイントを持つため、多くのツールから「ローカルのモデル提供元」として接続できます。コストをかけずに試作したり、機密データを外部に出さずに処理したい場面で有効です。外部ツール連携の仕組みは [MCPサーバーの作り方](/lms/guides/mcp-server-build) も参照してください。

Ollama の使い方｜ローカルLLMをインストールから API 連携まで【2026年版】

執筆・監修: Links-Create AI研修チーム

Claude Code・MCP・AI エージェントを実プロダクト開発で日常的に運用するチームが、実務で詰まった点に基づいて執筆しています。公開: 2026-06-16

この記事でわかること

Ollama とは：1コマンドでローカルにLLMを動かせる実行環境。ネット不要・データが手元に残る・無料
導入：Mac/Windows は公式インストーラ、Linux は `curl -fsSL https://ollama.com/install.sh | sh`
基本：`ollama run <モデル名>` で実行（未取得なら自動DL）、`ollama pull` で取得のみ、`ollama list` で一覧
API：起動すると `http://localhost:11434` で REST API が立つ（`/api/generate`・`/api/chat`）。自作アプリから叩ける
モデル選び：GPUなしは3B以下、ノートPCのGPUありで7B〜14Bが現実的な目安

結論：Ollama は「1コマンドで動くローカルLLM」

Ollama は、自分のPC上で大規模言語モデル（LLM）を動かすための実行環境です。ollama run llama3.2 と打つだけで、モデルのダウンロードから対話までが完結します。

クラウドAPIと違う最大の利点は3つ。(1) ネット接続不要、(2) 入力データが手元に残る（プライバシー）、(3) 無料。試作・学習・機密データの処理に向きます。この記事では、インストールから基本コマンド・モデルの選び方・API連携・Modelfile までを実例で解説します。

インストール

OS	方法
macOS	ollama.com からインストーラをDLして実行
Windows	同上（公式インストーラ）
Linux	`curl -fsSL https://ollama.com/install.sh

インストール後はバックグラウンドにサービスが常駐し、すぐにコマンドが使えます。

基本コマンド

# モデルを実行（ローカルに無ければ自動DL → 対話モードへ）
ollama run llama3.2

# ダウンロードだけする
ollama pull llama3.2

# 導入済みモデルの一覧
ollama list

# モデルを削除
ollama rm llama3.2

ollama run で対話モードに入ったら、プロンプトを入力すると応答が返ります。終了は /bye。初回はモデルのダウンロードに時間がかかりますが、2回目以降は即起動します。

モデルの選び方

モデルは ollama.com のライブラリから名前で指定します。サイズや量子化はタグで選びます。

ollama run llama3.2:3b        # 3B（軽量）
ollama run qwen2.5:7b         # 7B
ollama run gemma2:9b-instruct-q4_K_M   # 量子化を明示

ハードウェア別の現実的な目安：

環境	目安サイズ
CPUのみ（GPUなし）	3B 以下
ノートPCのGPU	7B〜14B
高VRAMのGPU	〜32B 以上も可

MoE構成のモデルに注意：活性パラメータが小さくても、重み全体（総パラメータ）をメモリに載せます。タグのサイズ表記と量子化（q4 等）でメモリ要件を見積もります（MoEとは）。

REST API から使う

Ollama 起動中は http://localhost:11434 で REST API が動いています。自作アプリやスクリプトから叩けます。

# 会話形式（/api/chat）
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [{ "role": "user", "content": "MoEを一言で説明して" }],
  "stream": false
}'

# 単発生成（/api/generate）
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "こんにちは",
  "stream": false
}'

公式の Python / JavaScript ライブラリ もあり、さらに OpenAI 互換エンドポイント も用意されているため、OpenAI SDK の base_url をローカルに向けるだけで多くのツールから使えます。

Modelfile で自分用モデルを作る

役割や口調を固定したアシスタントを作りたいときは Modelfile を書きます。

FROM llama3.2
SYSTEM "あなたは日本語の技術文書を校正する編集者です。事実を変えず、簡潔に直します。"
PARAMETER temperature 0.3

ollama create jp-editor -f Modelfile
ollama run jp-editor

これで jp-editor という独自モデルが登録され、毎回システムプロンプトを貼らずに使い回せます。

よくあるつまずき

応答が遅い / 固まる → モデルが大きすぎてメモリ不足の可能性。小さいサイズや量子化版（q4_K_M 等）に変える。
ollama run がモデルを見つけない → モデル名・タグの綴り違い。ライブラリの正式名で指定する。
APIにつながらない → Ollama サービスが起動しているか、ポート 11434 が他プロセスと競合していないか確認。
GPUが使われない → ドライバ/対応状況を確認。CPU フォールバックだと遅くなる。

まとめ

Ollama＝ローカルでLLMを動かす実行環境。ネット不要・データが手元・無料
導入：Mac/Win はインストーラ、Linux は curl ... | sh
基本：ollama run（実行＋自動DL）/ ollama pull（取得）/ list / rm
API：http://localhost:11434 の /api/chat・/api/generate、OpenAI互換あり
モデル選び：CPUは3B以下、ノートGPUは7B〜14B。MoEはVRAMを総パラメータで見積もる

ローカルLLMを業務ワークフローに組み込む：当サイトの「バイブコーディング実践編」では、AIツールを安全に業務へ組み込む手順を、提出物テンプレ + 採点ルーブリック付きの演習で扱います。4週間限定で無料公開中。