MoE（Mixture of Experts）とは何ですか？

入力（token）ごとに、モデル内の多数の「エキスパート（小さなサブネットワーク）」のうち数個だけを選んで使うアーキテクチャです。モデル全体としては巨大なパラメータ数を持ちながら、1回の推論で実際に計算するのはその一部だけ。これにより、計算コストを抑えたまま知識容量（賢さの上限）を大きくできます。GPT-4・DeepSeek-V3・Mixtral・Llama 4 など近年の主要LLMが採用しています。

ルーター（router）とエキスパート（expert）とは？

エキスパートは、通常のTransformerの1つのフィードフォワード層を複数に分けた「専門サブネットワーク」です。ルーターは各 token に対して、どのエキスパートを使うか（通常 top-k 個）を動的に選ぶ小さなネットワーク。選ばれたエキスパートの出力だけを合成して次に渡します。残りのエキスパートはその token では計算されません。

スパース活性化（sparse activation）とは？

全パラメータのうち一部だけを「活性化（実際に計算）」させることです。例えば DeepSeek-V3 は総パラメータ約671Bですが、1 token あたり活性化するのは約37Bだけ。知識は671B全体に蓄えつつ、推論時の計算コストは37B規模で済む、というのがスパース活性化の効果です。

総パラメータと活性パラメータの違いは？

総パラメータはモデル全体の大きさ（知識容量の上限）、活性パラメータは1 tokenの推論で実際に使う量（速度・コストの目安）です。MoEはこの2つが大きく乖離します。例：Mixtral 8x7B は総約47Bですが、token あたり2エキスパートのみ使うため活性は約13B。賢さは総パラメータ寄り、速さ・コストは活性パラメータ寄りで考えます。

MoE と Dense モデルはどちらが良いですか？

用途次第です。Dense（全パラメータを毎回使う従来型）は実装が単純でVRAM見積もりも素直。MoEは同じ推論コストでより大きな知識容量を持てる反面、重み全体をメモリに載せる必要があり、ルーティングの学習が難しい。クラウドの大規模モデルはほぼMoEに移行、ローカル実行ではVRAM制約からDenseの小型モデルも依然有力です。

MoE はなぜ速い・安いのですか？

推論で実際に計算するのが活性パラメータ分だけだからです。総671Bでも37Bしか動かさなければ、計算量（FLOPs）は37B規模で済みます。パラメータ＝知識容量を増やしても、token あたりの計算は増えないため、「賢さを上げてもコストが比例して増えない」のがMoEの狙いです（ただしVRAMは総量分必要）。

ローカルでMoEモデルを動かすときの注意は？

活性パラメータが小さくても、重み全体（総パラメータ）をメモリにロードする必要があります。例えば総100B級のMoEは、活性が十数Bでも量子化込みで数十GBのVRAM/RAMを要します。「活性パラメータが小さい＝省メモリ」と誤解しないこと。手元で動かすなら総サイズと量子化レベルで見積もります（[Ollamaでのローカル実行](/lms/guides/ollama)）。

MoE の『moe』はアニメの『萌え』と関係ありますか？

全く別物です。ここでの MoE は機械学習の Mixture of Experts（混合エキスパート）の略。検索では同じ綴りのアニメ用語と混ざりやすいため、AI文脈では「mixture of experts」「MoE モデル」と表記するのが確実です。

MoE（Mixture of Experts）とは？仕組み・スパース活性化・採用モデルを図解【2026年版】

執筆・監修: Links-Create AI研修チーム

Claude Code・MCP・AI エージェントを実プロダクト開発で日常的に運用するチームが、実務で詰まった点に基づいて執筆しています。公開: 2026-06-16

この記事でわかること

MoE とは：モデル全体のうち入力ごとに「一部のエキスパートだけ」を使う設計。巨大なパラメータ数を持ちつつ推論コストを抑える
仕組み：通常の1つのフィードフォワード層を多数の「エキスパート」に分け、「ルーター」が token ごとに使うエキスパートを数個だけ選ぶ
スパース活性化：総パラメータは巨大でも、1 token で実際に計算するのは一部だけ（例：DeepSeek-V3 は総671B中37Bのみ活性）
メリット：計算量を増やさずに知識容量（パラメータ）を増やせる＝同じ推論コストで賢くなれる
注意：活性パラメータは小さくても、VRAM には総パラメータ分のロードが必要。GPT-4・Llama 4・DeepSeek 等が採用

結論：MoE は「一部のエキスパートだけ使う」省コスト設計

MoE（Mixture of Experts／混合エキスパート） は、巨大なモデルの中から 入力ごとに必要な「エキスパート」だけを選んで使う アーキテクチャです。モデル全体では数千億〜兆パラメータを持ちながら、1 token の推論で実際に計算するのはその ごく一部 だけ。これにより、計算コストをほとんど増やさずに「知識容量＝賢さの上限」を引き上げられます。

GPT-4・DeepSeek-V3・Mixtral・Llama 4 など、近年の高性能 LLM の多くがこの設計を採用しています。この記事では、ルーターとエキスパートの仕組み・スパース活性化・Dense モデルとの違い・実務での選び方を図解します。

仕組み：ルーター + エキスパート + top-k 選択

通常の Transformer では、各層の フィードフォワード（FFN）ブロックを毎回すべて計算 します。MoE はここを次のように置き換えます。

1つの FFN ブロックを、多数の「エキスパート」（小さな FFN） に分割する
ルーター（router） が、各 token に対して使うエキスパートを 数個（top-k）だけ 選ぶ
選ばれたエキスパートの出力だけを重み付き合成して、次の層へ渡す
選ばれなかったエキスパートは、その token では 計算されない

つまり「token ごとに、その内容が得意なエキスパートにだけ仕事を振る」イメージです。ルーター自体も学習され、どの token をどのエキスパートに送るかを最適化します。

スパース活性化：総パラメータ ≫ 活性パラメータ

MoE の効果を一言で言うと スパース活性化（sparse activation） です。総パラメータは巨大でも、1 token で実際に動くのは一部だけ。代表的なモデルで見ると差は歴然です。

モデル	総パラメータ	1 token の活性パラメータ	構成
DeepSeek-V3	約 671B	約 37B	多数エキスパート + 共有エキスパート
Mixtral 8x7B	約 47B	約 13B	8エキスパート中 2つを使用
（一般のDenseモデル）	N	N（全部）	毎回すべて計算

DeepSeek-V3 は 671B の知識を蓄えつつ、推論コストは 37B 規模 で済みます。Mixtral 8x7B も、名前の「8x7B」は8つのエキスパートを意味し、総約47Bですが token あたり2つ（約13B）しか使いません。

なぜ MoE が主流になったのか

LLM の賢さは、おおまかにパラメータ数（知識容量）とともに伸びます。しかし Dense モデルでパラメータを増やすと、推論コストも比例して増えて しまいます。

MoE はここを切り離します。エキスパートを増やせば知識容量は増えるが、token あたりに使う数（top-k）を固定すれば計算量は増えない。「賢さを上げてもコストが比例しない」——この性質が、フロンティアモデルがこぞって MoE を採る理由です。

Dense:  パラメータ↑  ⇒  推論コスト↑（比例）
MoE:    総パラメータ↑（エキスパート追加） ⇒  推論コストはほぼ一定（活性は固定）

Dense と MoE の違い・使い分け

観点	Dense（従来型）	MoE
推論コスト	パラメータに比例	活性パラメータ分だけ（安い）
知識容量	パラメータ数なり	総パラメータで大きくできる
VRAM / メモリ	パラメータ分	総パラメータ分（重い）
学習の難しさ	素直	ルーティングの負荷分散が難しい
実装	シンプル	エキスパート並列など工夫が要る

クラウドの大規模モデルはほぼ MoE に移行済みです。一方、手元の GPU で動かすローカル実行 では、活性パラメータが小さくても 重み全体をメモリに載せる必要がある ため、VRAM 制約から Dense の小型モデルが現実的なこともあります。

よくある誤解

「活性パラメータが小さい＝省メモリ」→ 誤り。VRAM は総パラメータ分が必要。活性が小さいのは“計算量”が小さいだけ。
「MoE は常に Dense より速い」→ 文脈次第。token あたりの計算は少ないが、ロード・通信・ルーティングのオーバーヘッドがある。
「エキスパートは分野（法律・医療など）で分かれている」→ 厳密には違う。ルーターは学習で割り当てを決め、人間が解釈できる分野分担になるとは限らない。

実務での選び方（チェックリスト）

賢さの上限 を見たいなら → 総パラメータ
応答の速さ・API コスト を見たいなら → 活性パラメータ
ローカルで動かせるか → 総パラメータ（量子化込みサイズ）で VRAM を見積もる
同じ活性規模なら、MoE は知識容量で有利になりやすい

DeepSeek の最近の MoE は、補助損失なしの負荷分散・きめ細かいエキスパート分割・共有エキスパートなど、ルーティングを安定させる工夫が進んでいます。アーキテクチャ名だけでなく「総 / 活性」の2値で比較するのが実務的です。

まとめ

MoE＝入力ごとに一部のエキスパートだけ使う設計。総パラメータは巨大でも活性は一部
ルーターが token ごとに top-k エキスパートを選ぶ＝スパース活性化
例：DeepSeek-V3 671B総/37B活性、Mixtral 8x7B 47B総/13B活性
狙いは「賢さ（知識容量）を上げても推論コストを比例させない」こと
注意：VRAM は総パラメータ分が必要。Dense と用途で使い分ける

AIモデルの仕組みを実務に落とす：当サイトの「バイブコーディング実践編」では、こうしたモデル特性を踏まえて Claude Code などのツールを業務に組み込む手順を、提出物テンプレ + 採点ルーブリック付きの演習で扱います。4週間限定で無料公開中。