生成モデルの基礎

生成AIパスポート試験対策

生成モデルと判別モデル

AIモデルは大きく 判別モデル（Discriminative Model） と 生成モデル（Generative Model） の2種類に分類できます。この2つの違いを理解することは、生成AIの仕組みを学ぶ出発点です。

判別モデル は、入力データが「何であるか」を分類・判定するモデルです。例えば、画像を入力として「犬か猫か」を判定する画像分類器や、メールを「スパムか正常か」に振り分けるフィルターが典型的な判別モデルです。判別モデルはデータのクラス間の 境界（決定境界） を学習し、新しいデータがどちらの側に属するかを判断します。

一方、生成モデル は、学習データ全体の 確率分布（データがどのように分布しているか） を学習し、その分布に従って 新しいデータを生成 できるモデルです。例えば、大量の猫の画像で学習した生成モデルは、「猫らしい特徴を持つ新しい画像」を作り出すことができます。

判別モデルと生成モデルの比較

項目	判別モデル	生成モデル
目的	データの分類・判定	新しいデータの生成
学習内容	クラス間の決定境界	データ全体の確率分布
入出力	入力 → カテゴリ（ラベル）	ノイズや条件 → 新しいデータ
代表例	ロジスティック回帰、SVM、CNN分類器	VAE、GAN、拡散モデル、GPT
応用例	画像分類、スパム検知、感情分析	画像生成、文章生成、音声合成

判別モデルが「これは何か？」を答えるのに対し、生成モデルは「こういうものを作ろう」と新しいコンテンツを創り出す点が根本的な違いです。近年の生成AIブームは、この生成モデルの飛躍的な進化によって支えられています。

生成AIが作れるコンテンツの種類

生成モデルの応用範囲は非常に広く、多様な種類のコンテンツを生成できます。

生成対象	説明	代表的なサービス・モデル
テキスト	文章・要約・翻訳・コードなどを生成	ChatGPT、Claude、Gemini
画像	テキストの指示から画像を生成	Stable Diffusion、DALL-E、Midjourney
音声	テキストから自然な音声を合成、声質変換	VALL-E、Voicebox
動画	テキストや画像から動画を生成	Sora、Runway Gen-3
コード	自然言語の指示からプログラムコードを生成	GitHub Copilot、Cursor
音楽	メロディや楽曲を自動生成	Suno、Udio

これらの生成AIは、クリエイティブ制作・業務効率化・教育など幅広い分野で活用が進んでいます。ただし、生成されたコンテンツの正確性や著作権の問題など、利用にあたっては注意すべき点も多く存在します。

生成モデルの主要アーキテクチャ

生成モデルにはさまざまなアーキテクチャ（設計思想）があり、それぞれ異なるアプローチでデータを生成します。

モデル	登場年	基本アイデア	得意分野
VAE（変分オートエンコーダ）	2013年	データを潜在空間に圧縮→復元	画像生成、データ圧縮
GAN（敵対的生成ネットワーク）	2014年	生成器と識別器が競い合って学習	高品質な画像生成
Transformer	2017年	注意機構で文脈を並列処理	テキスト生成（GPT等）
拡散モデル	2020年頃	ノイズを段階的に除去して生成	高品質な画像・動画生成

以降のセクションでは、VAE・GAN・拡散モデルの仕組みを順に詳しく見ていきます。Transformerについては第4章で扱います。

生成モデルの先駆け: ボルツマンマシン

現在の生成モデルの源流をたどると、ボルツマンマシン（Boltzmann Machine） に行き着きます。ボルツマンマシンは1980年代にヒントンとセジノフスキーが提案した エネルギーベースモデル で、確率的に動作するニューラルネットワークです。統計力学のボルツマン分布に基づき、データの確率分布を学習する生成モデルの先駆けとなりました。

しかし、ボルツマンマシンはすべてのノード間に接続があるため、学習に膨大な計算コストがかかるという問題がありました。この問題を解決したのが 制限ボルツマンマシン（RBM: Restricted Boltzmann Machine） です。RBMは「可視層」と「隠れ層」の2層構造で、同じ層内のノード間の接続を排除 することで学習を大幅に効率化しました。

2006年、ジェフリー・ヒントンはRBMを複数層積み重ねた ディープビリーフネットワーク（DBN） を提案し、ディープラーニング研究の復興（第三次AIブーム）のきっかけを作りました。生成モデルの進化系譜は、ボルツマンマシン → VAE → GAN → 拡散モデルと続いており、各世代で生成品質と学習の安定性が向上しています。

ポイント

判別モデルはデータの分類・判定を行い、生成モデルはデータの確率分布を学習して新しいデータを生成する。生成AIはテキスト・画像・音声・動画・コード・音楽など多様なコンテンツを生成できる。主要な生成モデルのアーキテクチャにはVAE（2013年）、GAN（2014年）、Transformer（2017年）、拡散モデル（2020年頃）がある。ボルツマンマシンは確率的生成モデルの先駆けであり、制限ボルツマンマシン（RBM）の積層がディープラーニング復興の契機となった。

用語

判別モデル: Discriminative Model。入力データを分類・判定するモデル。決定境界を学習する
生成モデル: Generative Model。データの確率分布を学習し、新しいデータを生成するモデル
確率分布: データがどのような値をどのくらいの確率で取るかを表す分布。生成モデルが学習する対象
決定境界: 判別モデルが学習する、異なるクラスを分ける境界線
生成AI: Generative AI。テキスト・画像・音声等のコンテンツを新たに生成するAIの総称
マルチモーダル: テキスト・画像・音声など複数の種類のデータを扱えること
ボルツマンマシン: エネルギーベースの確率的生成モデル。統計力学のボルツマン分布に基づく生成モデルの先駆け
制限ボルツマンマシン（RBM）: Restricted Boltzmann Machine。同一層内の接続を排除して学習を効率化したボルツマンマシンの改良版

VAE（変分オートエンコーダ）

VAE（Variational Autoencoder: 変分オートエンコーダ） は、2013年にキングマ（Kingma）とウェリング（Welling）によって提案された生成モデルです。VAEを理解するには、まず土台となる オートエンコーダ（Autoencoder） の仕組みを押さえる必要があります。

オートエンコーダは、入力データを一度 圧縮（エンコード） してから 復元（デコード） するニューラルネットワークです。構造は3つの部分から成ります。

エンコーダ（Encoder）: 入力データを低次元の「潜在表現（Latent Representation）」に圧縮する
潜在空間（Latent Space）: 圧縮されたデータが存在する低次元の空間
デコーダ（Decoder）: 潜在表現から元のデータを復元する

例えば、縦横100ピクセルの画像（10,000次元）を、わずか100次元の潜在表現に圧縮し、そこから元の画像を復元するように学習します。これにより、データの本質的な特徴が潜在空間に凝縮されます。

通常のオートエンコーダの限界

通常のオートエンコーダは「入力をそのまま復元する」ことに特化しています。潜在空間は学習データの特徴を効率的に表現していますが、その配置に規則性がありません。つまり、潜在空間の適当な位置からサンプリングしても、意味のあるデータが生成される保証がないのです。

イメージとしては、本棚に本を詰め込んだが分類ルールがないため、棚の隙間から適当に1冊を取っても、望む本が手に入るとは限らない状態です。

VAEの革新: 確率分布としての潜在空間

VAEの「変分（Variational）」が意味するのは、潜在空間を 確率分布（具体的には正規分布） としてモデル化する点です。通常のオートエンコーダが潜在表現を「1つの点」として出力するのに対し、VAEのエンコーダは 平均（μ）と分散（σ²） を出力します。つまり「この入力データの潜在表現はこのあたりに、これくらいの広がりで分布している」と表現します。

デコード時には、この確率分布からランダムにサンプリングした値を使って復元します。これにより、潜在空間が 連続的かつ滑らか になり、近い点同士は似たデータを生成するという性質が生まれます。

VAE の処理フロー

潜在空間が滑らかであることの利点

VAEの潜在空間が滑らかであることは、生成モデルとして決定的に重要な性質です。

補間（Interpolation）が可能になる: 猫の画像Aと犬の画像Bの潜在表現の間を滑らかに移動すると、猫から犬へ徐々に変化する画像が生成されます。通常のオートエンコーダでは、中間地点でノイズのような意味不明の画像が出力される可能性があります。

属性の操作が可能になる: 潜在空間上で特定の方向に移動することで、「表情を笑顔にする」「髪の色を変える」といった属性の連続的な操作が可能になります。

新しいデータの生成: 潜在空間の任意の点からサンプリングすることで、学習データにはなかった新しいデータを生成できます。潜在空間全体が正規分布に近づくように学習するため、どの点からサンプリングしても意味のあるデータが得られます。

VAEの損失関数とKLダイバージェンス

VAEの学習では、2つの損失を同時に最小化します。

損失の種類	役割	直感的な説明
復元誤差（Reconstruction Loss）	入力と復元データの差を最小化	「元のデータをちゃんと再現できているか」
KLダイバージェンス（KL Divergence）	潜在空間の分布を正規分布に近づける	「潜在空間がきれいに整理されているか」

KLダイバージェンス は、2つの確率分布の「距離（差異）」を測る指標です。VAEでは、エンコーダが出力する分布と標準正規分布（平均0、分散1）の差を測り、これを小さくすることで潜在空間を滑らかに保ちます。

復元誤差だけを最小化すると通常のオートエンコーダと変わらず、KLダイバージェンスだけを最小化するとすべてのデータが同じ表現に潰れてしまいます。この2つのバランスを取ることがVAEの学習の本質です。

VAEは後に登場するGANに比べると生成画像がややぼやける傾向がありますが、学習が安定している、潜在空間の構造を活用できるといった利点があります。

ポイント

オートエンコーダはエンコーダ→潜在空間→デコーダの構造でデータを圧縮・復元する。VAEは潜在空間を確率分布（正規分布）としてモデル化することで、滑らかで連続的な潜在空間を実現する。損失関数は復元誤差とKLダイバージェンスの2つから成り、KLダイバージェンスは2つの確率分布の差異を測る指標。VAEはGANより学習が安定しているが、生成画像がぼやける傾向がある。

用語

VAE: Variational Autoencoder（変分オートエンコーダ）。潜在空間を確率分布としてモデル化する生成モデル
オートエンコーダ: 入力データをエンコーダで圧縮し、デコーダで復元するニューラルネットワーク
潜在空間: Latent Space。データが圧縮された低次元の空間。生成モデルの中核
エンコーダ: 入力データを潜在表現に変換（圧縮）するネットワーク部分
デコーダ: 潜在表現から元のデータを復元（生成）するネットワーク部分
KLダイバージェンス: 2つの確率分布の差異を測る指標。VAEでは潜在空間を正規分布に近づけるために使用
復元誤差: Reconstruction Loss。入力データと復元データの差。VAEの損失関数の一部

GAN（敵対的生成ネットワーク）

GAN（Generative Adversarial Network: 敵対的生成ネットワーク） は、2014年にイアン・グッドフェロー（Ian Goodfellow）によって提案された画期的な生成モデルです。GANの最大の特徴は、2つのニューラルネットワークを 敵対的（Adversarial） に競わせることでデータ生成の品質を高めるという仕組みにあります。

GANを構成する2つのネットワークは以下のとおりです。

生成器（Generator）: ランダムなノイズ（乱数）を入力として受け取り、本物そっくりの偽データを生成する
識別器（Discriminator）: 入力されたデータが「本物」か「生成器が作った偽物」かを判定する

この2つが同時に学習を進めます。生成器は識別器を騙せるようなリアルなデータを作ろうとし、識別器は生成器の作った偽物を見破ろうとします。この「いたちごっこ」を繰り返すことで、生成器はどんどん本物に近いデータを作れるようになります。

GAN（敵対的生成ネットワーク）の構造

偽札作りと警察の例え

GANの仕組みは「偽札作りと警察」の例えでよく説明されます。

偽札作り（= 生成器） は、本物そっくりの偽札を作ろうとします。最初は粗雑な偽札しか作れませんが、警察に見破られるたびに技術を改善していきます。

警察（= 識別器） は、紙幣が本物か偽物かを鑑定します。偽札作りの腕が上がるにつれ、鑑定技術も向上させなければなりません。

この競争を繰り返すうちに、偽札作りは限りなく本物に近い偽札を作れるようになり、警察は本物と偽物の区別がつかなくなります。GANの理想的な状態は、識別器が本物と偽物を50%の確率でしか区別できない（= コイン投げと同じ）状態です。

GANの学習プロセス

ステップ	生成器	識別器
初期段階	ノイズのような画像を出力	簡単に本物と偽物を区別できる
学習中盤	やや本物に近い画像を生成	区別が難しくなってくる
学習後半	高品質な画像を生成	ほぼ区別できない（50%に近づく）

モード崩壊（Mode Collapse）

GANの学習で最も代表的な問題が モード崩壊（Mode Collapse） です。これは、生成器が 限られたパターンの画像ばかりを生成する ようになる現象です。

例えば、手書き数字（0〜9）を学習させたGANで、生成器が「3」ばかり生成するようになるケースです。これは、生成器が「3を作れば識別器を最も効率よく騙せる」と学習してしまい、他の数字を作る能力を失ってしまうために起こります。

モード崩壊への対策として、Wasserstein GAN（WGAN）やSpectral Normalizationなどの改良手法が提案されています。

GANのもう一つの課題: 学習の不安定性

生成器と識別器の力のバランスが崩れると、学習が不安定になります。識別器が強すぎると、生成器はどんな画像を作っても「偽物」と判定されてしまい、改善の方向がわからなくなります。逆に生成器が強すぎると、識別器の学習が追いつかず、適切なフィードバックが得られなくなります。この微妙なバランスの調整がGAN学習の難しさです。

GANの代表的な派生モデル

GANの基本アイデアをベースに、多数の派生モデルが開発されました。

派生モデル	特徴	応用
DCGAN	畳み込み層を使ったGAN。画像生成の基盤	画像生成の基礎研究
StyleGAN	スタイル情報を階層的に制御して高品質な画像を生成	リアルな顔画像の生成
CycleGAN	対応関係のない2種類の画像間で変換を学習	写真→絵画変換、季節変換
Pix2Pix	対応するペア画像を使って画像変換を学習	線画→カラー画像、地図→衛星写真
Conditional GAN	条件（ラベル等）を指定して生成を制御	指定した数字・カテゴリの画像を生成

StyleGANで生成された「実在しない人物の顔写真」は、人間が見ても本物と区別がつかないほどの品質です。このことは、ディープフェイク（Deepfake） と呼ばれる偽画像・偽動画の問題にもつながっています。GANの技術は有用ですが、悪用防止のための対策も重要な課題です。

なお、2020年代に入ると、画像生成の分野では次のセクションで解説する拡散モデルがGANを上回る品質を達成し、主流が移りつつあります。

ポイント

GANは生成器と識別器の2つのネットワークが敵対的に学習する仕組み。理想状態では識別器の正答率が50%に近づく。モード崩壊は生成器が限られたパターンのみを出力する問題で、GANの代表的な課題。StyleGANはリアルな顔画像を生成できるが、ディープフェイク問題にも繋がる。近年は拡散モデルに主流が移りつつある。

用語

GAN: Generative Adversarial Network（敵対的生成ネットワーク）。生成器と識別器が競い合って学習する生成モデル
生成器: Generator。ランダムノイズから偽のデータを生成するネットワーク
識別器: Discriminator。データが本物か生成器の偽物かを判定するネットワーク
モード崩壊: Mode Collapse。生成器が多様性を失い、限られたパターンしか出力しなくなる問題
StyleGAN: スタイル情報を階層的に制御してリアルな画像を生成するGANの派生モデル
CycleGAN: ペアデータなしで2種類の画像間の変換を学習するGANの派生モデル
ディープフェイク: Deepfake。AIで生成された偽の画像や動画。GANや拡散モデルの悪用リスクとして社会問題化

拡散モデルと自然言語処理

拡散モデル（Diffusion Model） は、2020年頃から急速に注目を集めた生成モデルです。Stable Diffusion、DALL-E 2/3、Midjourneyなど、現在主流の画像生成AIの多くがこの技術をベースにしています。

拡散モデルの基本アイデアは非常に直感的です。「きれいな画像にノイズを少しずつ加えて完全なノイズにする過程」を逆再生することで、「ノイズから少しずつきれいな画像を復元する」のです。

拡散モデルの2つのプロセス

プロセス	方向	内容
前方過程（Forward Process）	画像 → ノイズ	きれいな画像に少しずつガウスノイズを加えていく
逆方向過程（Reverse Process）	ノイズ → 画像	ノイズを少しずつ除去してきれいな画像を復元する

前方過程は単純なノイズ付加なので数学的に定義できます。AIが学習するのは 逆方向過程、つまり「ノイズ混じりの画像からノイズ成分を予測して取り除く」方法です。

拡散モデルの生成プロセス（逆方向過程）

拡散モデルの利点

GANと比較した場合、拡散モデルには以下の利点があります。

比較項目	GAN	拡散モデル
学習の安定性	不安定（生成器と識別器のバランス調整が必要）	安定（単一のネットワークを学習）
多様性	モード崩壊のリスクあり	高い多様性を維持
画質	高品質だが分野による	GANを上回る品質を達成
生成速度	高速（1回のフォワードパス）	低速（数十〜数百ステップの反復処理）
条件制御	Conditional GANなど工夫が必要	テキスト条件の組み込みが容易

拡散モデルの最大の弱点は 生成速度の遅さ です。1枚の画像を生成するために数十〜数百ステップのノイズ除去を繰り返す必要があります。この問題に対して、ステップ数を削減する蒸留（Distillation）技術や、潜在空間で拡散を行う Latent Diffusion Model などの高速化手法が開発されています。Stable Diffusionは後者のアプローチを採用しており、ピクセル空間ではなく圧縮された潜在空間で拡散プロセスを実行することで、計算コストを大幅に削減しています。

代表的な画像生成AIサービス

拡散モデルをベースとした画像生成AIサービスが多数登場しています。

サービス	開発元	特徴
Stable Diffusion	Stability AI	オープンソース。ローカル実行可能。カスタマイズ性が高い
DALL-E 2/3	OpenAI	ChatGPTに統合。テキストからの画像生成に強い
Midjourney	Midjourney	アート性の高い画像生成。Discordから利用
Adobe Firefly	Adobe	商用利用に配慮した学習データ。Creative Cloudに統合

これらのサービスでは、テキストプロンプト（指示文） によって生成内容を制御します。「夕暮れの海辺に立つ猫、水彩画風」のように、被写体・場面・スタイルを自然言語で指定できるのが特徴です。この「テキストから画像を生成する」技術は Text-to-Image と呼ばれます。

自然言語処理（NLP）の基礎

テキスト生成AIを理解するうえで、自然言語処理（NLP: Natural Language Processing） の基礎知識も重要です。NLPとは、人間が日常的に使う言語（自然言語）をコンピュータに処理させる技術の総称です。

トークン化（Tokenization）

コンピュータがテキストを処理する最初のステップは トークン化 です。文章を「トークン」と呼ばれる最小単位に分割します。英語では単語単位、日本語では形態素（意味を持つ最小単位）に分割するのが一般的です。近年のLLMでは サブワード分割 という方式が主流で、頻出する単語はそのまま1トークンに、珍しい単語はより小さな単位に分割します。

単語埋め込み（Word Embedding）

トークン化の次に重要なのが 単語埋め込み（Word Embedding） です。これは単語を数百次元の数値ベクトルに変換する技術です。代表的な手法である Word2Vec は、「似た文脈で使われる単語は似た意味を持つ」という考え方に基づいています。

Word2Vecの有名な例として、「King - Man + Woman ≒ Queen」という演算があります。単語間の意味的な関係がベクトルの加減算で表現できることを示しています。

その他の重要なNLP技術

技術	説明
Bag of Words（BoW）	文中の単語の出現頻度でテキストを表現する手法。語順は無視される
TF-IDF	単語の重要度を「出現頻度」と「希少性」の積で評価する手法
Seq2Seq	Sequence to Sequence。入力系列から出力系列を生成する枠組み。機械翻訳の基盤
Attention機構	入力系列の中で重要な部分に「注意」を向ける仕組み。Transformerの基盤となった

Seq2Seqモデルはエンコーダ・デコーダ構造を持ち、翻訳（日本語→英語）や要約（長文→短文）に活用されました。しかし、長い文章を扱う際に情報が失われる問題があり、これを解決するために Attention機構 が導入されました。Attentionの発展がTransformerへとつながり、現在のLLMの基礎となっています。

ポイント

拡散モデルはノイズ付加（前方過程）とノイズ除去（逆方向過程）の2ステップで画像を生成する。GANより学習が安定し多様性が高いが、生成速度は遅い。Stable DiffusionはLatent Diffusion Modelを採用し計算コストを削減。NLPではトークン化→単語埋め込み（Word2Vec等）が基本処理。Seq2SeqとAttention機構がTransformerの基盤となった。

用語

拡散モデル: Diffusion Model。ノイズ付加と段階的なノイズ除去で画像を生成するモデル
Stable Diffusion: Stability AI開発のオープンソース画像生成AI。Latent Diffusion Modelベース
トークン化: Tokenization。テキストをトークン（最小処理単位）に分割する処理
Word2Vec: 単語を数値ベクトルに変換する手法。似た文脈の単語は近いベクトルになる
Seq2Seq: Sequence to Sequence。入力系列から出力系列を生成するエンコーダ・デコーダモデル
Attention機構: 入力系列の重要部分に注意を向ける仕組み。Transformerの基盤技術
Text-to-Image: テキストの指示から画像を生成する技術。拡散モデルベースのサービスが主流

問題演習 + 自動復習で、合格力を効率的に

教科書で学んだ内容を問題演習でアウトプット。SRS が自動で復習スケジュールを管理します。

問題演習は ¥980（買い切り）で全問利用可能