AI研修 大企業実務者向け第6章: AIのセキュリティ・倫理とガバナンス

学習データの前処理とCSAM対策

無料公開レッスン / 読了目安 2


AIモデルを安全で信頼できるものにするためには、モデルの「学習データ」に対する厳密な前処理が欠かせません。Googleの「Gemma 4」モデルの開発プロセスは、大企業が安全なAIを構築・運用する上で重要な指標となります。

Gemma 4の学習データの準備段階では、違法または有害なコンテンツを排除するために、厳格なCSAM(児童性的虐待記録物)フィルタリングが複数段階にわたって実施されています。また、個人情報(PII)などの機密データを学習セットから取り除くため、自動化された技術を用いたフィルタリングも行われています。

さらに、モデルの品質と安全性を担保するために、自社のポリシーに基づいたデータ品質フィルタリングも適用されています。企業が独自のAIモデルをファインチューニングしたり、社内データをRAGなどで活用したりする際も、こうしたデータの前処理とクレンジングを徹底し、根本的なリスクを低減するアーキテクチャ設計が求められます。

関連動画

【1分生成AIニュース 3月25日 】未成年×生成AI、これからの新常識は「安全を後付けしない」。#生成ai #最新情報 #1分AIニュース

AIが「学んでは忘れる」を終わらせるGoogleの発想転換【Nested Learning徹底解説】

参考リンク


学習データの前処理とCSAM対策 | AI研修 大企業実務者向け 第1章 - AI研修