AI研修 大企業実務者向け / 第5章: 実稼働を支えるインフラと運用基盤
トークン予算によるレイテンシ最適化
無料公開レッスン / 読了目安 2 分
画像や動画を処理するマルチモーダルAIを実稼働させる際、視覚データの処理にかかる計算コストをどうコントロールするかが、システム全体のレイテンシを左右します。Gemma 4では、これを柔軟に調整する「視覚トークン予算(Visual Token Budget)」という機能が導入されています。
この機能では、1枚の画像を表現するためにAIが使用するトークンの数を、70から1120までの範囲で設定できます。たとえば、大まかな画像分類や動画のフレーム解析のように、高速な処理が求められるタスクには低い予算(70や140)を割り当てます。逆に、契約書の細かい文字を読み取るOCR処理や、複雑な図面の解析など、高い精度が必要なタスクには高い予算(560や1120)を割り当てます。
運用フェーズにおいては、常に最高解像度で処理を行うのではなく、業務の要件に応じてこのトークン予算を最適化することで、無駄な計算リソースの消費を抑え、システムの応答速度(レイテンシ)とインフラコストの最適なバランスを実現することが可能です。
関連動画
Every AI request has a price and it's paid in tokens.💲
AI動画編集の最適解がこちら【導入方法も解説】