読み込み中...
読み込み中...
読み込み中...
読み込み中...
読み込み中...
AIモデルは大きく 判別モデル(Discriminative Model) と 生成モデル(Generative Model) の2種類に分類できます。この2つの違いを理解することは、生成AIの仕組みを学ぶ出発点です。
判別モデル は、入力データが「何であるか」を分類・判定するモデルです。例えば、画像を入力として「犬か猫か」を判定する画像分類器や、メールを「スパムか正常か」に振り分けるフィルターが典型的な判別モデルです。判別モデルはデータのクラス間の 境界(決定境界) を学習し、新しいデータがどちらの側に属するかを判断します。
一方、生成モデル は、学習データ全体の 確率分布(データがどのように分布しているか) を学習し、その分布に従って 新しいデータを生成 できるモデルです。例えば、大量の猫の画像で学習した生成モデルは、「猫らしい特徴を持つ新しい画像」を作り出すことができます。
| 項目 | 判別モデル | 生成モデル |
|---|---|---|
| 目的 | データの分類・判定 | 新しいデータの生成 |
| 学習内容 | クラス間の決定境界 | データ全体の確率分布 |
| 入出力 | 入力 → カテゴリ(ラベル) | ノイズや条件 → 新しいデータ |
| 代表例 | ロジスティック回帰、SVM、CNN分類器 | VAE、GAN、拡散モデル、GPT |
| 応用例 | 画像分類、スパム検知、感情分析 | 画像生成、文章生成、音声合成 |
判別モデルが「これは何か?」を答えるのに対し、生成モデルは「こういうものを作ろう」と新しいコンテンツを創り出す点が根本的な違いです。近年の生成AIブームは、この生成モデルの飛躍的な進化によって支えられています。
生成モデルの応用範囲は非常に広く、多様な種類のコンテンツを生成できます。
| 生成対象 | 説明 | 代表的なサービス・モデル |
|---|---|---|
| テキスト | 文章・要約・翻訳・コードなどを生成 | ChatGPT、Claude、Gemini |
| 画像 | テキストの指示から画像を生成 | Stable Diffusion、DALL-E、Midjourney |
| 音声 | テキストから自然な音声を合成、声質変換 | VALL-E、Voicebox |
| 動画 | テキストや画像から動画を生成 | Sora、Runway Gen-3 |
| コード | 自然言語の指示からプログラムコードを生成 | GitHub Copilot、Cursor |
| 音楽 | メロディや楽曲を自動生成 | Suno、Udio |
これらの生成AIは、クリエイティブ制作・業務効率化・教育など幅広い分野で活用が進んでいます。ただし、生成されたコンテンツの正確性や著作権の問題など、利用にあたっては注意すべき点も多く存在します。
生成モデルにはさまざまなアーキテクチャ(設計思想)があり、それぞれ異なるアプローチでデータを生成します。
| モデル | 登場年 | 基本アイデア | 得意分野 |
|---|---|---|---|
| VAE(変分オートエンコーダ) | 2013年 | データを潜在空間に圧縮→復元 | 画像生成、データ圧縮 |
| GAN(敵対的生成ネットワーク) | 2014年 | 生成器と識別器が競い合って学習 | 高品質な画像生成 |
| Transformer | 2017年 | 注意機構で文脈を並列処理 | テキスト生成(GPT等) |
| 拡散モデル | 2020年頃 | ノイズを段階的に除去して生成 | 高品質な画像・動画生成 |
以降のセクションでは、VAE・GAN・拡散モデルの仕組みを順に詳しく見ていきます。Transformerについては第4章で扱います。
現在の生成モデルの源流をたどると、ボルツマンマシン(Boltzmann Machine) に行き着きます。ボルツマンマシンは1980年代にヒントンとセジノフスキーが提案した エネルギーベースモデル で、確率的に動作するニューラルネットワークです。統計力学のボルツマン分布に基づき、データの確率分布を学習する生成モデルの先駆けとなりました。
しかし、ボルツマンマシンはすべてのノード間に接続があるため、学習に膨大な計算コストがかかるという問題がありました。この問題を解決したのが 制限ボルツマンマシン(RBM: Restricted Boltzmann Machine) です。RBMは「可視層」と「隠れ層」の2層構造で、同じ層内のノード間の接続を排除 することで学習を大幅に効率化しました。
2006年、ジェフリー・ヒントンはRBMを複数層積み重ねた ディープビリーフネットワーク(DBN) を提案し、ディープラーニング研究の復興(第三次AIブーム)のきっかけを作りました。生成モデルの進化系譜は、ボルツマンマシン → VAE → GAN → 拡散モデルと続いており、各世代で生成品質と学習の安定性が向上しています。
ポイント
判別モデルはデータの分類・判定を行い、生成モデルはデータの確率分布を学習して新しいデータを生成する。生成AIはテキスト・画像・音声・動画・コード・音楽など多様なコンテンツを生成できる。主要な生成モデルのアーキテクチャにはVAE(2013年)、GAN(2014年)、Transformer(2017年)、拡散モデル(2020年頃)がある。ボルツマンマシンは確率的生成モデルの先駆けであり、制限ボルツマンマシン(RBM)の積層がディープラーニング復興の契機となった。
用語
VAE(Variational Autoencoder: 変分オートエンコーダ) は、2013年にキングマ(Kingma)とウェリング(Welling)によって提案された生成モデルです。VAEを理解するには、まず土台となる オートエンコーダ(Autoencoder) の仕組みを押さえる必要があります。
オートエンコーダは、入力データを一度 圧縮(エンコード) してから 復元(デコード) するニューラルネットワークです。構造は3つの部分から成ります。
例えば、縦横100ピクセルの画像(10,000次元)を、わずか100次元の潜在表現に圧縮し、そこから元の画像を復元するように学習します。これにより、データの本質的な特徴が潜在空間に凝縮されます。
通常のオートエンコーダは「入力をそのまま復元する」ことに特化しています。潜在空間は学習データの特徴を効率的に表現していますが、その配置に規則性がありません。つまり、潜在空間の適当な位置からサンプリングしても、意味のあるデータが生成される保証がないのです。
イメージとしては、本棚に本を詰め込んだが分類ルールがないため、棚の隙間から適当に1冊を取っても、望む本が手に入るとは限らない状態です。
VAEの「変分(Variational)」が意味するのは、潜在空間を 確率分布(具体的には正規分布) としてモデル化する点です。通常のオートエンコーダが潜在表現を「1つの点」として出力するのに対し、VAEのエンコーダは 平均(μ)と分散(σ²) を出力します。つまり「この入力データの潜在表現はこのあたりに、これくらいの広がりで分布している」と表現します。
デコード時には、この確率分布からランダムにサンプリングした値を使って復元します。これにより、潜在空間が 連続的かつ滑らか になり、近い点同士は似たデータを生成するという性質が生まれます。
VAEの潜在空間が滑らかであることは、生成モデルとして決定的に重要な性質です。
補間(Interpolation)が可能になる: 猫の画像Aと犬の画像Bの潜在表現の間を滑らかに移動すると、猫から犬へ徐々に変化する画像が生成されます。通常のオートエンコーダでは、中間地点でノイズのような意味不明の画像が出力される可能性があります。
属性の操作が可能になる: 潜在空間上で特定の方向に移動することで、「表情を笑顔にする」「髪の色を変える」といった属性の連続的な操作が可能になります。
新しいデータの生成: 潜在空間の任意の点からサンプリングすることで、学習データにはなかった新しいデータを生成できます。潜在空間全体が正規分布に近づくように学習するため、どの点からサンプリングしても意味のあるデータが得られます。
VAEの学習では、2つの損失を同時に最小化します。
| 損失の種類 | 役割 | 直感的な説明 |
|---|---|---|
| 復元誤差(Reconstruction Loss) | 入力と復元データの差を最小化 | 「元のデータをちゃんと再現できているか」 |
| KLダイバージェンス(KL Divergence) | 潜在空間の分布を正規分布に近づける | 「潜在空間がきれいに整理されているか」 |
KLダイバージェンス は、2つの確率分布の「距離(差異)」を測る指標です。VAEでは、エンコーダが出力する分布と標準正規分布(平均0、分散1)の差を測り、これを小さくすることで潜在空間を滑らかに保ちます。
復元誤差だけを最小化すると通常のオートエンコーダと変わらず、KLダイバージェンスだけを最小化するとすべてのデータが同じ表現に潰れてしまいます。この2つのバランスを取ることがVAEの学習の本質です。
VAEは後に登場するGANに比べると生成画像がややぼやける傾向がありますが、学習が安定している、潜在空間の構造を活用できるといった利点があります。
ポイント
オートエンコーダはエンコーダ→潜在空間→デコーダの構造でデータを圧縮・復元する。VAEは潜在空間を確率分布(正規分布)としてモデル化することで、滑らかで連続的な潜在空間を実現する。損失関数は復元誤差とKLダイバージェンスの2つから成り、KLダイバージェンスは2つの確率分布の差異を測る指標。VAEはGANより学習が安定しているが、生成画像がぼやける傾向がある。
用語
GAN(Generative Adversarial Network: 敵対的生成ネットワーク) は、2014年にイアン・グッドフェロー(Ian Goodfellow)によって提案された画期的な生成モデルです。GANの最大の特徴は、2つのニューラルネットワークを 敵対的(Adversarial) に競わせることでデータ生成の品質を高めるという仕組みにあります。
GANを構成する2つのネットワークは以下のとおりです。
この2つが同時に学習を進めます。生成器は識別器を騙せるようなリアルなデータを作ろうとし、識別器は生成器の作った偽物を見破ろうとします。この「いたちごっこ」を繰り返すことで、生成器はどんどん本物に近いデータを作れるようになります。
GANの仕組みは「偽札作りと警察」の例えでよく説明されます。
偽札作り(= 生成器) は、本物そっくりの偽札を作ろうとします。最初は粗雑な偽札しか作れませんが、警察に見破られるたびに技術を改善していきます。
警察(= 識別器) は、紙幣が本物か偽物かを鑑定します。偽札作りの腕が上がるにつれ、鑑定技術も向上させなければなりません。
この競争を繰り返すうちに、偽札作りは限りなく本物に近い偽札を作れるようになり、警察は本物と偽物の区別がつかなくなります。GANの理想的な状態は、識別器が本物と偽物を50%の確率でしか区別できない(= コイン投げと同じ)状態です。
| ステップ | 生成器 | 識別器 |
|---|---|---|
| 初期段階 | ノイズのような画像を出力 | 簡単に本物と偽物を区別できる |
| 学習中盤 | やや本物に近い画像を生成 | 区別が難しくなってくる |
| 学習後半 | 高品質な画像を生成 | ほぼ区別できない(50%に近づく) |
GANの学習で最も代表的な問題が モード崩壊(Mode Collapse) です。これは、生成器が 限られたパターンの画像ばかりを生成する ようになる現象です。
例えば、手書き数字(0〜9)を学習させたGANで、生成器が「3」ばかり生成するようになるケースです。これは、生成器が「3を作れば識別器を最も効率よく騙せる」と学習してしまい、他の数字を作る能力を失ってしまうために起こります。
モード崩壊への対策として、Wasserstein GAN(WGAN)やSpectral Normalizationなどの改良手法が提案されています。
生成器と識別器の力のバランスが崩れると、学習が不安定になります。識別器が強すぎると、生成器はどんな画像を作っても「偽物」と判定されてしまい、改善の方向がわからなくなります。逆に生成器が強すぎると、識別器の学習が追いつかず、適切なフィードバックが得られなくなります。この微妙なバランスの調整がGAN学習の難しさです。
GANの基本アイデアをベースに、多数の派生モデルが開発されました。
| 派生モデル | 特徴 | 応用 |
|---|---|---|
| DCGAN | 畳み込み層を使ったGAN。画像生成の基盤 | 画像生成の基礎研究 |
| StyleGAN | スタイル情報を階層的に制御して高品質な画像を生成 | リアルな顔画像の生成 |
| CycleGAN | 対応関係のない2種類の画像間で変換を学習 | 写真→絵画変換、季節変換 |
| Pix2Pix | 対応するペア画像を使って画像変換を学習 | 線画→カラー画像、地図→衛星写真 |
| Conditional GAN | 条件(ラベル等)を指定して生成を制御 | 指定した数字・カテゴリの画像を生成 |
StyleGANで生成された「実在しない人物の顔写真」は、人間が見ても本物と区別がつかないほどの品質です。このことは、ディープフェイク(Deepfake) と呼ばれる偽画像・偽動画の問題にもつながっています。GANの技術は有用ですが、悪用防止のための対策も重要な課題です。
なお、2020年代に入ると、画像生成の分野では次のセクションで解説する拡散モデルがGANを上回る品質を達成し、主流が移りつつあります。
ポイント
GANは生成器と識別器の2つのネットワークが敵対的に学習する仕組み。理想状態では識別器の正答率が50%に近づく。モード崩壊は生成器が限られたパターンのみを出力する問題で、GANの代表的な課題。StyleGANはリアルな顔画像を生成できるが、ディープフェイク問題にも繋がる。近年は拡散モデルに主流が移りつつある。
用語
拡散モデル(Diffusion Model) は、2020年頃から急速に注目を集めた生成モデルです。Stable Diffusion、DALL-E 2/3、Midjourneyなど、現在主流の画像生成AIの多くがこの技術をベースにしています。
拡散モデルの基本アイデアは非常に直感的です。「きれいな画像にノイズを少しずつ加えて完全なノイズにする過程」を逆再生することで、「ノイズから少しずつきれいな画像を復元する」のです。
| プロセス | 方向 | 内容 |
|---|---|---|
| 前方過程(Forward Process) | 画像 → ノイズ | きれいな画像に少しずつガウスノイズを加えていく |
| 逆方向過程(Reverse Process) | ノイズ → 画像 | ノイズを少しずつ除去してきれいな画像を復元する |
前方過程は単純なノイズ付加なので数学的に定義できます。AIが学習するのは 逆方向過程、つまり「ノイズ混じりの画像からノイズ成分を予測して取り除く」方法です。
GANと比較した場合、拡散モデルには以下の利点があります。
| 比較項目 | GAN | 拡散モデル |
|---|---|---|
| 学習の安定性 | 不安定(生成器と識別器のバランス調整が必要) | 安定(単一のネットワークを学習) |
| 多様性 | モード崩壊のリスクあり | 高い多様性を維持 |
| 画質 | 高品質だが分野による | GANを上回る品質を達成 |
| 生成速度 | 高速(1回のフォワードパス) | 低速(数十〜数百ステップの反復処理) |
| 条件制御 | Conditional GANなど工夫が必要 | テキスト条件の組み込みが容易 |
拡散モデルの最大の弱点は 生成速度の遅さ です。1枚の画像を生成するために数十〜数百ステップのノイズ除去を繰り返す必要があります。この問題に対して、ステップ数を削減する蒸留(Distillation)技術や、潜在空間で拡散を行う Latent Diffusion Model などの高速化手法が開発されています。Stable Diffusionは後者のアプローチを採用しており、ピクセル空間ではなく圧縮された潜在空間で拡散プロセスを実行することで、計算コストを大幅に削減しています。
拡散モデルをベースとした画像生成AIサービスが多数登場しています。
| サービス | 開発元 | 特徴 |
|---|---|---|
| Stable Diffusion | Stability AI | オープンソース。ローカル実行可能。カスタマイズ性が高い |
| DALL-E 2/3 | OpenAI | ChatGPTに統合。テキストからの画像生成に強い |
| Midjourney | Midjourney | アート性の高い画像生成。Discordから利用 |
| Adobe Firefly | Adobe | 商用利用に配慮した学習データ。Creative Cloudに統合 |
これらのサービスでは、テキストプロンプト(指示文) によって生成内容を制御します。「夕暮れの海辺に立つ猫、水彩画風」のように、被写体・場面・スタイルを自然言語で指定できるのが特徴です。この「テキストから画像を生成する」技術は Text-to-Image と呼ばれます。
テキスト生成AIを理解するうえで、自然言語処理(NLP: Natural Language Processing) の基礎知識も重要です。NLPとは、人間が日常的に使う言語(自然言語)をコンピュータに処理させる技術の総称です。
コンピュータがテキストを処理する最初のステップは トークン化 です。文章を「トークン」と呼ばれる最小単位に分割します。英語では単語単位、日本語では形態素(意味を持つ最小単位)に分割するのが一般的です。近年のLLMでは サブワード分割 という方式が主流で、頻出する単語はそのまま1トークンに、珍しい単語はより小さな単位に分割します。
トークン化の次に重要なのが 単語埋め込み(Word Embedding) です。これは単語を数百次元の数値ベクトルに変換する技術です。代表的な手法である Word2Vec は、「似た文脈で使われる単語は似た意味を持つ」という考え方に基づいています。
Word2Vecの有名な例として、「King - Man + Woman ≒ Queen」という演算があります。単語間の意味的な関係がベクトルの加減算で表現できることを示しています。
| 技術 | 説明 |
|---|---|
| Bag of Words(BoW) | 文中の単語の出現頻度でテキストを表現する手法。語順は無視される |
| TF-IDF | 単語の重要度を「出現頻度」と「希少性」の積で評価する手法 |
| Seq2Seq | Sequence to Sequence。入力系列から出力系列を生成する枠組み。機械翻訳の基盤 |
| Attention機構 | 入力系列の中で重要な部分に「注意」を向ける仕組み。Transformerの基盤となった |
Seq2Seqモデルはエンコーダ・デコーダ構造を持ち、翻訳(日本語→英語)や要約(長文→短文)に活用されました。しかし、長い文章を扱う際に情報が失われる問題があり、これを解決するために Attention機構 が導入されました。Attentionの発展がTransformerへとつながり、現在のLLMの基礎となっています。
ポイント
拡散モデルはノイズ付加(前方過程)とノイズ除去(逆方向過程)の2ステップで画像を生成する。GANより学習が安定し多様性が高いが、生成速度は遅い。Stable DiffusionはLatent Diffusion Modelを採用し計算コストを削減。NLPではトークン化→単語埋め込み(Word2Vec等)が基本処理。Seq2SeqとAttention機構がTransformerの基盤となった。
用語