AI研修大企業実務者向け／第7章: 大規模AIを支えるインフラと高速推論エンジン

トークン予算によるレイテンシ制御

無料公開レッスン／読了目安 2 分

画像や動画を処理するマルチモーダルAIを実稼働させる際、視覚データの処理にかかる計算コストをどうコントロールするかが、システム全体のレイテンシ（応答遅延）を左右します。Gemma 4では、これを柔軟に調整する「視覚トークン予算（Visual Token Budget）」という機能が導入されています。

この機能では、1枚の画像を表現するためにAIが使用するトークンの数を、70から1120までの範囲で設定できます。たとえば、大まかな画像分類や動画のフレーム解析のように、高速な処理が求められるタスクには低い予算（70や140）を割り当てます。逆に、契約書の細かい文字を読み取るOCR処理や、複雑な図面の解析など、高い精度が必要なタスクには高い予算（560や1120）を割り当てます。

運用フェーズにおいては、常に最高解像度で処理を行うのではなく、業務の要件に応じてこのトークン予算を最適化することで、無駄な計算リソースの消費を抑え、システムの応答速度とインフラコストの最適なバランスを実現することが可能です。

トークン予算によるレイテンシ制御

関連動画

参考リンク