AI研修大企業実務者向け／第5章: 実稼働を支えるインフラと運用基盤

トークン予算によるレイテンシ最適化

無料公開レッスン／読了目安 2 分

画像や動画を処理するマルチモーダルAIを実稼働させる際、視覚データの処理にかかる計算コストをどうコントロールするかが、システム全体のレイテンシを左右します。Gemma 4では、これを柔軟に調整する「視覚トークン予算（Visual Token Budget）」という機能が導入されています。

この機能では、1枚の画像を表現するためにAIが使用するトークンの数を、70から1120までの範囲で設定できます。たとえば、大まかな画像分類や動画のフレーム解析のように、高速な処理が求められるタスクには低い予算（70や140）を割り当てます。逆に、契約書の細かい文字を読み取るOCR処理や、複雑な図面の解析など、高い精度が必要なタスクには高い予算（560や1120）を割り当てます。

運用フェーズにおいては、常に最高解像度で処理を行うのではなく、業務の要件に応じてこのトークン予算を最適化することで、無駄な計算リソースの消費を抑え、システムの応答速度（レイテンシ）とインフラコストの最適なバランスを実現することが可能です。

トークン予算によるレイテンシ最適化

関連動画

参考リンク