Ollama の使い方|ローカルLLMをインストールから API 連携まで【2026年版】

執筆・監修: Links-Create AI研修チーム
Claude Code・MCP・AI エージェントを実プロダクト開発で日常的に運用するチームが、 実務で詰まった点に基づいて執筆しています。 公開: 2026-06-16

この記事でわかること

  • Ollama とは:1コマンドでローカルにLLMを動かせる実行環境。ネット不要・データが手元に残る・無料
  • 導入:Mac/Windows は公式インストーラ、Linux は `curl -fsSL https://ollama.com/install.sh | sh`
  • 基本:`ollama run <モデル名>` で実行(未取得なら自動DL)、`ollama pull` で取得のみ、`ollama list` で一覧
  • API:起動すると `http://localhost:11434` で REST API が立つ(`/api/generate`・`/api/chat`)。自作アプリから叩ける
  • モデル選び:GPUなしは3B以下、ノートPCのGPUありで7B〜14Bが現実的な目安

結論:Ollama は「1コマンドで動くローカルLLM」

Ollama は、自分のPC上で大規模言語モデル(LLM)を動かすための実行環境です。ollama run llama3.2 と打つだけで、モデルのダウンロードから対話までが完結します。

クラウドAPIと違う最大の利点は3つ。(1) ネット接続不要(2) 入力データが手元に残る(プライバシー)(3) 無料。試作・学習・機密データの処理に向きます。この記事では、インストールから基本コマンド・モデルの選び方・API連携・Modelfile までを実例で解説します。

インストール

OS方法
macOSollama.com からインストーラをDLして実行
Windows同上(公式インストーラ)
Linux`curl -fsSL https://ollama.com/install.sh

インストール後はバックグラウンドにサービスが常駐し、すぐにコマンドが使えます。

基本コマンド

# モデルを実行(ローカルに無ければ自動DL → 対話モードへ)
ollama run llama3.2

# ダウンロードだけする
ollama pull llama3.2

# 導入済みモデルの一覧
ollama list

# モデルを削除
ollama rm llama3.2

ollama run で対話モードに入ったら、プロンプトを入力すると応答が返ります。終了は /bye。初回はモデルのダウンロードに時間がかかりますが、2回目以降は即起動します。

モデルの選び方

モデルは ollama.com のライブラリから 名前 で指定します。サイズや量子化は タグ で選びます。

ollama run llama3.2:3b        # 3B(軽量)
ollama run qwen2.5:7b         # 7B
ollama run gemma2:9b-instruct-q4_K_M   # 量子化を明示

ハードウェア別の現実的な目安:

環境目安サイズ
CPUのみ(GPUなし)3B 以下
ノートPCのGPU7B〜14B
高VRAMのGPU〜32B 以上も可

MoE構成のモデルに注意:活性パラメータが小さくても、重み全体(総パラメータ)をメモリに載せます。タグのサイズ表記と量子化(q4 等)でメモリ要件を見積もります(MoEとは)。

REST API から使う

Ollama 起動中は http://localhost:11434 で REST API が動いています。自作アプリやスクリプトから叩けます。

# 会話形式(/api/chat)
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [{ "role": "user", "content": "MoEを一言で説明して" }],
  "stream": false
}'

# 単発生成(/api/generate)
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "こんにちは",
  "stream": false
}'

公式の Python / JavaScript ライブラリ もあり、さらに OpenAI 互換エンドポイント も用意されているため、OpenAI SDK の base_url をローカルに向けるだけで多くのツールから使えます。

Modelfile で自分用モデルを作る

役割や口調を固定したアシスタントを作りたいときは Modelfile を書きます。

FROM llama3.2
SYSTEM "あなたは日本語の技術文書を校正する編集者です。事実を変えず、簡潔に直します。"
PARAMETER temperature 0.3
ollama create jp-editor -f Modelfile
ollama run jp-editor

これで jp-editor という独自モデルが登録され、毎回システムプロンプトを貼らずに使い回せます。

よくあるつまずき

  • 応答が遅い / 固まる → モデルが大きすぎてメモリ不足の可能性。小さいサイズや量子化版(q4_K_M 等)に変える。
  • ollama run がモデルを見つけない → モデル名・タグの綴り違い。ライブラリの正式名で指定する。
  • APIにつながらない → Ollama サービスが起動しているか、ポート 11434 が他プロセスと競合していないか確認。
  • GPUが使われない → ドライバ/対応状況を確認。CPU フォールバックだと遅くなる。

まとめ

  • Ollama=ローカルでLLMを動かす実行環境。ネット不要・データが手元・無料
  • 導入:Mac/Win はインストーラ、Linux は curl ... | sh
  • 基本:ollama run(実行+自動DL)/ ollama pull(取得)/ list / rm
  • API:http://localhost:11434/api/chat/api/generate、OpenAI互換あり
  • モデル選び:CPUは3B以下、ノートGPUは7B〜14B。MoEはVRAMを総パラメータで見積もる

ローカルLLMを業務ワークフローに組み込む:当サイトの「バイブコーディング実践編」では、AIツールを安全に業務へ組み込む手順を、提出物テンプレ + 採点ルーブリック付きの演習で扱います。4週間限定で無料公開中

関連ガイド:

関連する AI 研修コース・事例

このガイドで解説した内容を、提出物・採点ルーブリック付きの実装演習で 実務レベルまで定着させるためのコースと、国内外の AI 活用事例を見るための入口です。