AI研修大企業実務者向け／第6章: AIのセキュリティ・倫理とガバナンス

学習データの前処理とCSAM対策

無料公開レッスン／読了目安 2 分

AIモデルを安全で信頼できるものにするためには、モデルの「学習データ」に対する厳密な前処理が欠かせません。Googleの「Gemma 4」モデルの開発プロセスは、大企業が安全なAIを構築・運用する上で重要な指標となります。

Gemma 4の学習データの準備段階では、違法または有害なコンテンツを排除するために、厳格なCSAM（児童性的虐待記録物）フィルタリングが複数段階にわたって実施されています。また、個人情報（PII）などの機密データを学習セットから取り除くため、自動化された技術を用いたフィルタリングも行われています。

さらに、モデルの品質と安全性を担保するために、自社のポリシーに基づいたデータ品質フィルタリングも適用されています。企業が独自のAIモデルをファインチューニングしたり、社内データをRAGなどで活用したりする際も、こうしたデータの前処理とクレンジングを徹底し、根本的なリスクを低減するアーキテクチャ設計が求められます。

学習データの前処理とCSAM対策

関連動画

参考リンク