🤖 AI・データ技術 徹底解説

生成AI/AIガバナンス/RAG・LLM/プライバシー保護技術/MLOps/AI規制

📋 目次

  1. 生成AIの特徴と活用
  2. AIガバナンス・AI利用規程
  3. RAG・LLMの仕組みと評価
  4. プライバシー保護技術
  5. MLOps・モデル監視
  6. AI規制・リスク管理
  7. 試験直前チェック

1. 生成AIの特徴と活用

生成AIとは

生成AI(Generative AI)は、学習したデータから新しいコンテンツ(テキスト・画像・音声・コード等)を生成するAIです。従来の判別型AI(分類・予測)と異なり、入力に対して新たなアウトプットを創造する点が特徴です。

特徴内容
大規模モデル大量データで事前学習したLLM(大規模言語モデル)がベース
汎用性プログラミングなしで多様なタスクに対応
ハルシネーションもっともらしい誤情報を自信を持って生成する問題
プロンプト依存入力の質によって出力品質が大きく変わる

ビジネス利用で注意すべき点

⚠️ 誤答パターン

「生成AIは常に正確な情報を生成する」は完全に誤り。ハルシネーションは生成AIの本質的な問題。「活用=人間のチェック不要」は危険な誤解。

2. AIガバナンス・AI利用規程

AIガバナンスの原則設計

AIガバナンスで最も重要な原則の組み合わせは透明性・説明可能性・公平性・人間によるオーバーサイト(監視)・プライバシー保護です。

AI利用規程の必須項目

📌 試験ポイント

「AI利用規程で法務・情報セキュリティ・人事が連携して盛り込むべき項目」→ 入力禁止情報ルール+ファクトチェック義務+著作権ルール+インシデント対応が4本柱。

AIレッドチーミング

AIシステムに対して攻撃者視点で脆弱性・不適切動作・バイアスを意図的に探索するテスト手法。リリース前にリスクを発見し、安全性・信頼性を高めることが主目的。

XAI(説明可能なAI)

AIの判断根拠を人間が理解できる形で説明する技術。信頼性向上・規制対応・バイアス検出が主目的。金融・医療など高リスク分野で特に重要。

3. RAG・LLMの仕組みと評価

RAG(検索拡張生成)の優位点

RAG(Retrieval-Augmented Generation)は、LLMが回答を生成する際に外部知識ベースをリアルタイムに検索し参照する手法です。

比較ファインチューニングRAG
知識更新再学習が必要(コスト高)検索DB更新だけで対応可(低コスト)
鮮度学習データ時点で固定最新情報をリアルタイム参照可能
出典提示困難参照文書を明示しやすい

LLM評価(Eval)設計

実運用の品質保証に直結するLLM評価には、ゴールデンセット(正解付きテストケース)による自動評価+人間評価の組み合わせが有効です。また、本番入出力からの継続的サンプリング評価(オンライン評価)が品質維持に不可欠。

ハルシネーション対策

社内検索への生成AI展開アーキテクチャ

社内知識検索に生成AIを活用する場合、RAG+ベクターDB(社内文書のembedding検索)の組み合わせが事実性と鮮度を両立する最適構成です。LLMだけに頼ると古い知識や誤情報のリスクが増大します。

4. プライバシー保護技術

差分プライバシー(Differential Privacy)

データ集合に統計的ノイズを加えることで、個人データを特定されることなく統計分析を可能にする技術。「あるデータに1人のレコードを追加/除外しても集計結果がほぼ変わらない」という数学的保証を提供。

連合学習(Federated Learning)

データを中央サーバーに集めずに、各端末でモデルを学習し勾配(更新情報)だけを共有する分散機械学習手法。医療・金融など機密データをクラウドに送れない領域で有効。

準同型暗号(Homomorphic Encryption)

暗号化したままデータを演算でき、復号せずに計算結果を得られる暗号技術。クラウドへのデータ提供なしに第三者が計算サービスを提供できる実務的価値がある。計算コストが高い点が課題。

ゼロ知識証明(ZKP)

証明者が「知っていること」を、その内容を一切開示せずに検証者に証明できる暗号プロトコル。本人確認・ブロックチェーン取引のプライバシー保護などに応用。

合成データ(Synthetic Data)の留意点

合成データは元データの統計的性質を模倣して人工的に生成されたデータ。プライバシー保護に有用ですが、元データの偏りをそのまま引き継ぐリスクがあります。偏り緩和には「元データの偏りを意図的に修正した合成データ生成」と「統計的品質検証」が必要。

5. MLOps・モデル監視

モデルドリフトとは

本番環境でのデータ分布が学習時から変化し、モデルの精度が経時劣化する現象。データドリフト(入力の変化)とコンセプトドリフト(入力と出力の関係自体の変化)がある。

モデルドリフト対処のMLOps実践

SHAP値(説明可能性)

SHAPは各特徴量が予測結果にどれだけ貢献したかを定量化する手法。「この予測値がこの数値になったのは、特徴量Aが+X影響し、特徴量Bが-Y影響したから」という形で解釈できます。個別の予測説明に特に有効。

6. AI規制・リスク管理

リスクベース・アプローチ(EU AI法)

AIをリスクの高さで分類し、高リスクAIには厳格な規制・低リスクには軽い義務を課すアプローチ。EUのAI法(AI Act)が採用。禁止用途(社会スコアリング等)・高リスク(医療・インフラ)・限定リスク・最小リスクの4層。

プロンプトインジェクション対策

悪意ある指示をプロンプトに埋め込みAIの動作を乗っ取る攻撃。対策として入力のサニタイズ・システムプロンプトと外部入力の分離・出力の監視・権限の最小化が有効。

LLM監査(AI Audit)の観点

LLMの最低限の監査項目は①バイアス・公平性(差別的出力がないか)②ハルシネーション率プロンプトインジェクション耐性著作権侵害リスク有害コンテンツ生成リスク

📌 試験ポイント

「XAIの主目的」→ モデルの判断を人間が理解・信頼できるようにすること(ブラックボックス問題の解消)。「性能向上」や「計算速度改善」は誤り。

7. 試験直前チェックポイント

キーワード正解の方向性
生成AIの特徴新コンテンツを生成・汎用性・ハルシネーションのリスクあり
ハルシネーション対策RAG+人間チェック。出典明示。
RAGの優位点ファインチューニング不要・知識の鮮度維持・出典提示
差分プライバシー統計ノイズで個人特定を防ぎながら集計分析
連合学習データ非送信でモデル学習・プライバシー保護
モデルドリフト対処継続監視・自動アラート・定期再学習パイプライン
SHAP値各特徴量の予測貢献度の定量化・個別説明
AIリスクベースリスク高さで規制の重さを変える(EU AI法)
XAI目的判断根拠を人間が理解できるようにする(信頼性・規制対応)
AI利用規程の必須項目入力禁止情報+ファクトチェック義務+著作権ルール