AI研修 大企業実務者向け / 第6章: AIのセキュリティ・倫理とガバナンス
学習データの前処理とCSAM対策
無料公開レッスン / 読了目安 2 分
AIモデルを安全で信頼できるものにするためには、モデルの「学習データ」に対する厳密な前処理が欠かせません。Googleの「Gemma 4」モデルの開発プロセスは、大企業が安全なAIを構築・運用する上で重要な指標となります。
Gemma 4の学習データの準備段階では、違法または有害なコンテンツを排除するために、厳格なCSAM(児童性的虐待記録物)フィルタリングが複数段階にわたって実施されています。また、個人情報(PII)などの機密データを学習セットから取り除くため、自動化された技術を用いたフィルタリングも行われています。
さらに、モデルの品質と安全性を担保するために、自社のポリシーに基づいたデータ品質フィルタリングも適用されています。企業が独自のAIモデルをファインチューニングしたり、社内データをRAGなどで活用したりする際も、こうしたデータの前処理とクレンジングを徹底し、根本的なリスクを低減するアーキテクチャ設計が求められます。
関連動画
【1分生成AIニュース 3月25日 】未成年×生成AI、これからの新常識は「安全を後付けしない」。#生成ai #最新情報 #1分AIニュース
AIが「学んでは忘れる」を終わらせるGoogleの発想転換【Nested Learning徹底解説】